- 説明:
Extreme Summarization (XSum) データセット。
2 つの機能があります: - ドキュメント: ニュース記事を入力します。 - 要約: 記事の要約を 1 文で。
このデータは、 https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.mdで説明されているように手動でダウンロードして抽出する必要があります。フォルダ「xsum-extracts-from-downloads」は次のように圧縮する必要があります。 「xsum-extracts-from-downloads.tar.gz」を手動でダウンロードしたフォルダーに入れます。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
ソース コード:
tfds.summarization.Xsum
バージョン:
-
1.0.0
: クリーニングなしのデータセット。 -
1.1.0
(デフォルト): Web コンテンツを削除します。
-
ダウンロードサイズ:
2.59 MiB
データセットサイズ:
512.03 MiB
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
詳細なダウンロード手順 (カスタム スクリプトの実行が必要) はこちら: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scriptsその後xsum-extracts-from-downloads.tar.gz ファイルを manual_dir に置いてください。自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- 機能構造:
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
資料 | 文章 | ストリング | ||
まとめ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('document', 'summary')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}