научные_бумаги

Описание :

Наборы данных научных статей содержат два набора длинных и структурированных документов. Наборы данных получены из репозиториев ArXiv и PubMed OpenAccess.

И «arxiv», и «pubmed» имеют две особенности:

статья: основная часть документа, абзацы разделены "/n".
аннотация: аннотация документа, страницы, разделенные "/n".
section_names: названия разделов, разделенные "/n".
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/armancohan/long-summarization
Исходный код : tfds.datasets.scientific_papers.Builder
Версии :
- 1.1.0 : Нет примечаний к выпуску.
- 1.1.1 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : 4.20 GiB
Автоматическое кэширование ( документация ): Нет
Структура функции :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
Абстрактные	Текст	нить
статья	Текст	нить
section_names	Текст	нить

Контролируемые ключи (см. as_supervised doc ): ('article', 'abstract')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (конфигурация по умолчанию)

Описание конфига : Документы из репозитория ArXiv.
Размер набора данных : 7.07 GiB
Сплиты :

Расколоть	Примеры
`'test'`	6440
`'train'`	203 037
`'validation'`	6436

Примеры ( tfds.as_dataframe ):

научные_бумаги/опубликованные

Описание конфига : Документы из репозитория PubMed.
Размер набора данных : 2.34 GiB
Сплиты :

Расколоть	Примеры
`'test'`	6658
`'train'`	119 924
`'validation'`	6633

Примеры ( tfds.as_dataframe ):

научные_бумаги Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Scientific_papers/arxiv (конфигурация по умолчанию)

научные_бумаги/опубликованные

научные_бумаги