ag_news_subset
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
AG は 100 万件を超えるニュース記事のコレクションです。ニュース記事は、ComeToMyHead によって 1 年以上の活動で 2000 以上のニュース ソースから収集されています。 ComeToMyHead は、2004 年 7 月から稼働している学術ニュース検索エンジンです。データセットは、データマイニング (クラスタリング、分類など)、情報検索 (ランキング、検索など)、xml、データ圧縮、データ ストリーミング、およびその他の非営利活動。詳細については、リンクhttp://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.htmlを参照してください。
AG のニュース トピック分類データセットは、上記のデータセットから Xiang Zhang (xiang.zhang@nyu.edu) によって作成されました。これは、Xiang Zhang、Junbo Zhao、Yann LeCun の論文でテキスト分類のベンチマークとして使用されています。テキスト分類のための文字レベルの畳み込みネットワーク。神経情報処理システムの進歩 28 (NIPS 2015)。
AG のニュース トピック分類データセットは、元のコーパスから最大の 4 つのクラスを選択することによって構築されます。各クラスには、30,000 のトレーニング サンプルと 1,900 のテスト サンプルが含まれています。トレーニング サンプルの総数は 120,000 で、テストは 7,600 です。
スプリット | 例 |
---|
'test' | 7,600 |
'train' | 120,000 |
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
特徴 | クラス | 形 | Dtype | 説明 |
---|
| 特徴辞書 | | | |
説明 | 文章 | | ストリング | |
ラベル | クラスラベル | | int64 | |
題名 | 文章 | | ストリング | |
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2022-12-06 UTC。
[null,null,["最終更新日 2022-12-06 UTC。"],[],[],null,["# ag_news_subset\n\n\u003cbr /\u003e\n\n- **Description**:\n\nAG is a collection of more than 1 million news articles. News articles have been\ngathered from more than 2000 news sources by ComeToMyHead in more than 1 year of\nactivity. ComeToMyHead is an academic news search engine which has been running\nsince July, 2004. The dataset is provided by the academic comunity for research\npurposes in data mining (clustering, classification, etc), information retrieval\n(ranking, search, etc), xml, data compression, data streaming, and any other\nnon-commercial activity. For more information, please refer to the link\n[http://www.di.unipi.it/\\~gulli/AG_corpus_of_news_articles.html](http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html) .\n\nThe AG's news topic classification dataset is constructed by Xiang Zhang\n(xiang.zhang@nyu.edu) from the dataset above. It is used as a text\nclassification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann\nLeCun. Character-level Convolutional Networks for Text Classification. Advances\nin Neural Information Processing Systems 28 (NIPS 2015).\n\nThe AG's news topic classification dataset is constructed by choosing 4 largest\nclasses from the original corpus. Each class contains 30,000 training samples\nand 1,900 testing samples. The total number of training samples is 120,000 and\ntesting 7,600.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/ag-news)\n\n- **Homepage** :\n \u003chttps://arxiv.org/abs/1509.01626\u003e\n\n- **Source code** :\n [`tfds.datasets.ag_news_subset.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/ag_news_subset/ag_news_subset_dataset_builder.py)\n\n- **Versions**:\n\n - **`1.0.0`** (default): No release notes.\n- **Download size** : `11.24 MiB`\n\n- **Dataset size** : `35.79 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'test'` | 7,600 |\n| `'train'` | 120,000 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'description': Text(shape=(), dtype=string),\n 'label': ClassLabel(shape=(), dtype=int64, num_classes=4),\n 'title': Text(shape=(), dtype=string),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|-------------|--------------|-------|--------|-------------|\n| | FeaturesDict | | | |\n| description | Text | | string | |\n| label | ClassLabel | | int64 | |\n| title | Text | | string | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('description', 'label')`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @misc{zhang2015characterlevel,\n title={Character-level Convolutional Networks for Text Classification},\n author={Xiang Zhang and Junbo Zhao and Yann LeCun},\n year={2015},\n eprint={1509.01626},\n archivePrefix={arXiv},\n primaryClass={cs.LG}\n }"]]