マルチニュース

  • 説明

マルチニュースデータセット

Multi-Newsは、ニュースサイトnewser.comに掲載されているニュース記事と、それらの記事を人間が作成した要約で構成されています。各要約は編集者によって専門的に作成されており、引用元の記事へのリンクが含まれています。

これは、ニュース記事の複数文書の要約のための最初の大規模データセットです。

各レコードには 2 つの機能があります。

  • document : ニュース記事のテキスト。特殊トークン「|||||」で区切られます。
  • summary : ニュースの要約。

  • 追加ドキュメント: Papers With Code で探す

  • ホームページ: https://github.com/Alex-Fabbri/Multi-News

  • ソースコード: tfds.datasets.multi_news.Builder

  • バージョン:

    • 1.0.0 : 最初のリリース。
    • 2.0.0 : [使用しないでください] 有効な URL でデータセットを更新します。
    • 2.1.0 (デフォルト) : データセットを正しいURLに更新してください。このバージョンのURLは、同じ著者によってキュレーションされているHuggingFaceのデータセットリポジトリから取得されています: https://huggingface.co/datasets/alexfabbri/multi_news
  • ダウンロードサイズ: 721.73 MiB

  • データセットサイズ: 666.50 MiB

  • 自動キャッシュドキュメント): いいえ

  • スプリット

スプリット
'test' 5,622
'train' 44,972
'validation' 5,622
  • 機能構造:
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
機能辞書
書類文章
まとめ文章
  • 引用
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}