- 説明:
AG は 100 万件を超えるニュース記事のコレクションです。ニュース記事は、ComeToMyHead によって 1 年以上の活動で 2000 以上のニュース ソースから収集されています。 ComeToMyHead は、2004 年 7 月から稼働している学術ニュース検索エンジンです。データセットは、データマイニング (クラスタリング、分類など)、情報検索 (ランキング、検索など)、xml、データ圧縮、データ ストリーミング、およびその他の非営利活動。詳細については、リンクhttp://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.htmlを参照してください。
AG のニュース トピック分類データセットは、上記のデータセットから Xiang Zhang (xiang.zhang@nyu.edu) によって作成されました。これは、Xiang Zhang、Junbo Zhao、Yann LeCun の論文でテキスト分類のベンチマークとして使用されています。テキスト分類のための文字レベルの畳み込みネットワーク。神経情報処理システムの進歩 28 (NIPS 2015)。
AG のニュース トピック分類データセットは、元のコーパスから最大の 4 つのクラスを選択することによって構築されます。各クラスには、30,000 のトレーニング サンプルと 1,900 のテスト サンプルが含まれています。トレーニング サンプルの総数は 120,000 で、テストは 7,600 です。
追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://arxiv.org/abs/1509.01626
ソース コード:
tfds.datasets.ag_news_subset.Builderバージョン:
-
1.0.0(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
11.24 MiBデータセットのサイズ:
35.79 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'test' | 7,600 |
'train' | 120,000 |
- 機能構造:
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 特徴辞書 | ||||
| 説明 | 文章 | ストリング | ||
| ラベル | クラスラベル | int64 | ||
| 題名 | 文章 | ストリング |
監視対象のキー(
as_superviseddocを参照):('description', 'label')図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}