- Descrição :
Os conjuntos de dados de artigos científicos contêm dois conjuntos de documentos longos e estruturados. Os conjuntos de dados são obtidos dos repositórios ArXiv e PubMed OpenAccess.
Ambos "arxiv" e "pubmed" têm dois recursos:
- artigo: corpo do documento, parágrafos separados por "/n".
- abstract: resumo do documento, parágrafos separados por "/n".
section_names: títulos das seções, separados por "/n".
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/armancohan/long-summarization
Código -fonte:
tfds.datasets.scientific_papers.Builder
Versões :
-
1.1.0
: Sem notas de versão. -
1.1.1
(padrão): Sem notas de versão.
-
Tamanho do download :
4.20 GiB
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
resumo | Texto | fragmento | ||
artigo | Texto | fragmento | ||
section_names | Texto | fragmento |
Chaves supervisionadas (ver
as_supervised
doc ):('article', 'abstract')
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (configuração padrão)
Descrição da configuração : Documentos do repositório ArXiv.
Tamanho do conjunto de dados :
7.07 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.440 |
'train' | 203.037 |
'validation' | 6.436 |
- Exemplos ( tfds.as_dataframe ):
artigos_científicos/pubmed
Descrição da configuração : Documentos do repositório PubMed.
Tamanho do conjunto de dados :
2.34 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.658 |
'train' | 119.924 |
'validation' | 6.633 |
- Exemplos ( tfds.as_dataframe ):