ag_news_subset

説明:

AG は 100 万件を超えるニュース記事のコレクションです。ニュース記事は、ComeToMyHead によって 1 年以上の活動で 2000 以上のニュースソースから収集されています。 ComeToMyHead は、2004 年 7 月から稼働している学術ニュース検索エンジンです。データセットは、データマイニング (クラスタリング、分類など)、情報検索 (ランキング、検索など)、xml、データ圧縮、データストリーミング、およびその他の非営利活動。詳細については、リンクhttp://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.htmlを参照してください。

AG のニューストピック分類データセットは、上記のデータセットから Xiang Zhang (xiang.zhang@nyu.edu) によって作成されました。これは、Xiang Zhang、Junbo Zhao、Yann LeCun の論文でテキスト分類のベンチマークとして使用されています。テキスト分類のための文字レベルの畳み込みネットワーク。神経情報処理システムの進歩 28 (NIPS 2015)。

AG のニューストピック分類データセットは、元のコーパスから最大の 4 つのクラスを選択することによって構築されます。各クラスには、30,000 のトレーニングサンプルと 1,900 のテストサンプルが含まれています。トレーニングサンプルの総数は 120,000 で、テストは 7,600 です。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://arxiv.org/abs/1509.01626
ソースコード: tfds.datasets.ag_news_subset.Builder
バージョン:
- 1.0.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 11.24 MiB
データセットのサイズ: 35.79 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'test'`	7,600
`'train'`	120,000

機能構造:

FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
説明	文章	ストリング
ラベル	クラスラベル	int64
題名	文章	ストリング

監視対象のキー( as_supervised docを参照): ('description', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

ag_news_subset コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ag_news_subset