ruang wartawan

  • Deskripsi :

RUANG BERITA adalah kumpulan data besar untuk melatih dan mengevaluasi sistem peringkasan. Ini berisi 1,3 juta artikel dan ringkasan yang ditulis oleh penulis dan editor di ruang redaksi dari 38 publikasi utama.

Fitur kumpulan data meliputi:

  • teks: Masukkan teks berita.
  • ringkasan: Ringkasan untuk berita.

Dan fitur tambahan:

  • judul: judul berita.
  • url: url berita.
  • tanggal: tanggal artikel.
  • densitas: densitas ekstraktif.
  • cakupan: cakupan ekstraktif.
  • kompresi: rasio kompresi.
  • density_bin: rendah, sedang, tinggi.
  • coverage_bin: ekstraktif, abstraktif.
  • kompresi_bin: rendah, sedang, tinggi.

Kumpulan data ini dapat diunduh berdasarkan permintaan. Unzip semua isi "train.jsonl, dev.jsonl, test.jsonl" ke folder tfds.

  • Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode

  • Beranda : https://summari.es

  • Kode sumber : tfds.datasets.newsroom.Builder

  • Versi :

    • 1.0.0 (default): Tidak ada catatan rilis.
  • Ukuran unduhan : Unknown size

  • Ukuran dataset : 5.13 GiB

  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    Anda harus mengunduh kumpulan data dari https://summari.es/download/ Halaman web memerlukan pendaftaran. Setelah mengunduh, harap letakkan file dev.jsonl, test.jsonl dan train.jsonl di manual_dir.

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 108.862
'train' 995.041
'validation' 108.837
  • Struktur fitur :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
kompresi Tensor float32
tempat_kompresi Teks rangkaian
cakupan Tensor float32
coverage_bin Teks rangkaian
tanggal Teks rangkaian
kepadatan Tensor float32
densitas_bin Teks rangkaian
ringkasan Teks rangkaian
teks Teks rangkaian
judul Teks rangkaian
url Teks rangkaian
  • Kutipan :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}