- Deskripsi :
RUANG BERITA adalah kumpulan data besar untuk melatih dan mengevaluasi sistem peringkasan. Ini berisi 1,3 juta artikel dan ringkasan yang ditulis oleh penulis dan editor di ruang redaksi dari 38 publikasi utama.
Fitur kumpulan data meliputi:
- teks: Masukkan teks berita.
- ringkasan: Ringkasan untuk berita.
Dan fitur tambahan:
- judul: judul berita.
- url: url berita.
- tanggal: tanggal artikel.
- densitas: densitas ekstraktif.
- cakupan: cakupan ekstraktif.
- kompresi: rasio kompresi.
- density_bin: rendah, sedang, tinggi.
- coverage_bin: ekstraktif, abstraktif.
- kompresi_bin: rendah, sedang, tinggi.
Kumpulan data ini dapat diunduh berdasarkan permintaan. Unzip semua isi "train.jsonl, dev.jsonl, test.jsonl" ke folder tfds.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://summari.es
Kode sumber :
tfds.datasets.newsroom.Builder
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown size
Ukuran dataset :
5.13 GiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Anda harus mengunduh kumpulan data dari https://summari.es/download/ Halaman web memerlukan pendaftaran. Setelah mengunduh, harap letakkan file dev.jsonl, test.jsonl dan train.jsonl di manual_dir.Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Struktur fitur :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
kompresi | Tensor | float32 | ||
tempat_kompresi | Teks | rangkaian | ||
cakupan | Tensor | float32 | ||
coverage_bin | Teks | rangkaian | ||
tanggal | Teks | rangkaian | ||
kepadatan | Tensor | float32 | ||
densitas_bin | Teks | rangkaian | ||
ringkasan | Teks | rangkaian | ||
teks | Teks | rangkaian | ||
judul | Teks | rangkaian | ||
url | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}