- Описание :
Наборы данных научных статей содержат два набора длинных и структурированных документов. Наборы данных получены из репозиториев ArXiv и PubMed OpenAccess.
И «arxiv», и «pubmed» имеют две особенности:
- статья: основная часть документа, абзацы разделены "/n".
- аннотация: аннотация документа, страницы, разделенные "/n".
section_names: названия разделов, разделенные "/n".
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/armancohan/long-summarization
Исходный код :
tfds.datasets.scientific_papers.BuilderВерсии :
-
1.1.0: Нет примечаний к выпуску. -
1.1.1(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
4.20 GiBАвтоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| Абстрактные | Текст | нить | ||
| статья | Текст | нить | ||
| section_names | Текст | нить |
Контролируемые ключи (см.
as_superviseddoc ):('article', 'abstract')Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (конфигурация по умолчанию)
Описание конфига : Документы из репозитория ArXiv.
Размер набора данных :
7.07 GiBСплиты :
| Расколоть | Примеры |
|---|---|
'test' | 6440 |
'train' | 203 037 |
'validation' | 6436 |
- Примеры ( tfds.as_dataframe ):
научные_бумаги/опубликованные
Описание конфига : Документы из репозитория PubMed.
Размер набора данных :
2.34 GiBСплиты :
| Расколоть | Примеры |
|---|---|
'test' | 6658 |
'train' | 119 924 |
'validation' | 6633 |
- Примеры ( tfds.as_dataframe ):