publikacje naukowe

  • opis :

Zbiory danych artykułów naukowych zawierają dwa zestawy długich i ustrukturyzowanych dokumentów. Zbiory danych pochodzą z repozytoriów ArXiv i PubMed OpenAccess.

Zarówno „arxiv”, jak i „pubmed” mają dwie cechy:

'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
abstrakcyjny Tekst strunowy
artykuł Tekst strunowy
nazwy_sekcji Tekst strunowy
={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
={Proceedings of the 2018 Conference of the North American Chapter of
Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
={Association for Computational Linguistics},
={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},

science_papers/arxiv (domyślna konfiguracja)

  • Opis konfiguracji : Dokumenty z repozytorium ArXiv.

  • Rozmiar zestawu danych : 7.07 GiB

  • Podziały :

Podział Przykłady
'test' 6440
'train' 203037
'validation' 6436


  • Opis konfiguracji : Dokumenty z repozytorium PubMed.

  • Rozmiar zestawu danych : 2.34 GiB

  • Podziały :

Podział Przykłady
'test' 6658
'train' 119 924
'validation' 6633