articoli_scientifici

  • Descrizione :

I set di dati di articoli scientifici contengono due serie di documenti lunghi e strutturati. I set di dati sono ottenuti dai repository ArXiv e PubMed OpenAccess.

Sia "arxiv" che "pubmed" hanno due caratteristiche:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
astratto Testo corda
articolo Testo corda
section_names Testo corda
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

scientific_papers/arxiv (configurazione predefinita)

  • Descrizione della configurazione : documenti dal repository ArXiv.

  • Dimensione del set di dati: 7.07 GiB

  • Divisioni :

Diviso Esempi
'test' 6.440
'train' 203.037
'validation' 6.436

articoli_scientifici/pubblicati

  • Descrizione della configurazione : documenti dal repository PubMed.

  • Dimensione del set di dati: 2.34 GiB

  • Divisioni :

Diviso Esempi
'test' 6.658
'train' 119.924
'validation' 6.633