- Descrição :
SAMSum Corpus contém mais de 16 mil diálogos de bate-papo com resumos anotados manualmente.
Existem duas características:
- diálogo: texto do diálogo.
- resumo: resumo escrito humano do diálogo.
id: id de um exemplo.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://arxiv.org/src/1911.12237v2/anc
Código -fonte:
tfds.datasets.samsum.BuilderVersões :
-
1.0.0(padrão): sem notas de versão.
-
Tamanho do download :
Unknown sizeTamanho do conjunto de dados :
10.71 MiBInstruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir(o padrão é~/tensorflow_datasets/downloads/manual/):
Baixe https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descompacte e coloque train.json, val.json e test.json na pasta manual.Cache automático ( documentação ): Sim
Divisões :
| Dividir | Exemplos |
|---|---|
'test' | 819 |
'train' | 14.732 |
'validation' | 818 |
- Estrutura de recursos :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentação do recurso:
| Funcionalidade | Aula | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| diálogo | Texto | fragmento | ||
| Eu iria | Texto | fragmento | ||
| resumo | Texto | fragmento |
Chaves supervisionadas (Veja
as_superviseddoc ):('dialogue', 'summary')Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}