- Описание :
AG представляет собой сборник из более чем 1 миллиона новостных статей. Новостные статьи были собраны ComeToMyHead из более чем 2000 источников новостей за более чем 1 год работы. ComeToMyHead — поисковая система академических новостей, работающая с июля 2004 года. Набор данных предоставляется академическим сообществом для исследовательских целей в области интеллектуального анализа данных (кластеризация, классификация и т. д.), поиска информации (ранжирование, поиск и т. д.), xml, сжатие данных, потоковая передача данных и любая другая некоммерческая деятельность. Для получения дополнительной информации перейдите по ссылке http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
Набор данных классификации тем новостей AG создан Сян Чжаном (xiang.zhang@nyu.edu) на основе набора данных выше. Он используется в качестве эталона классификации текста в следующей статье: Xiang Zhang, Junbo Zhao, Yann LeCun. Сверточные сети на уровне символов для классификации текстов. Достижения в области систем обработки нейронной информации 28 (NIPS 2015).
Набор данных классификации тем новостей AG создается путем выбора 4 крупнейших классов из исходного корпуса. Каждый класс содержит 30 000 обучающих и 1 900 тестовых образцов. Общее количество обучающих выборок составляет 120 000, тестовых — 7 600.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://arxiv.org/abs/1509.01626
Исходный код :
tfds.datasets.ag_news_subset.BuilderВерсии :
-
1.0.0(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
11.24 MiBРазмер набора данных :
35.79 MiB.Автоматическое кэширование ( документация ): Да
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 7600 |
'train' | 120 000 |
- Структура функции :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| описание | Текст | нить | ||
| этикетка | Метка класса | int64 | ||
| заглавие | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('description', 'label')Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}