ニュースルーム

  • 説明:

NEWSROOM は、要約システムのトレーニングと評価のための大規模なデータセットです。 38 の主要出版物のニュースルームで執筆者や編集者が執筆した 130 万件の記事と要約が含まれています。

データセットの機能は次のとおりです。

  • text: ニュースのテキストを入力します。
  • summary: ニュースの要約。

追加機能:

  • タイトル: ニュースのタイトル。
  • url: ニュースの URL。
  • date: 記事の日付。
  • 密度: 抽出密度。
  • カバレッジ: 抽出カバレッジ。
  • 圧縮: 圧縮率。
  • density_bin: 低、中、高。
  • coverage_bin: 抽出的、抽象的。
  • 圧縮ビン: 低、中、高。

このデータセットは、リクエストに応じてダウンロードできます。すべてのコンテンツ「train.jsonl、dev.jsonl、test.jsonl」を tfds フォルダーに解凍します。

  • 追加のドキュメント:コードを使用したペーパーの探索

  • ホームページ: https://summari.es

  • ソース コード: tfds.datasets.newsroom.Builder

  • バージョン:

    • 1.0.0 (デフォルト): リリース ノートはありません。
  • ダウンロードサイズ: サイズUnknown size

  • データセットサイズ: 5.13 GiB

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    https://summari.es/download/からデータセットをダウンロードする必要があります。この Web ページには登録が必要です。ダウンロード後、dev.jsonl、test.jsonl、train.jsonl ファイルを manual_dir に配置してください。

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 108,862
'train' 995,041
'validation' 108,837
  • 機能構造:
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
圧縮テンソルfloat32
圧縮ビン文章
カバレッジテンソルfloat32
カバレッジ_ビン文章
日にち文章
密度テンソルfloat32
密度ビン文章
まとめ文章
文章文章
タイトル文章
URL文章
  • 引用
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}