- Deskripsi :
Dataset Reddit, di mana TIFU menunjukkan nama subbreddit /r/tifu. Sebagaimana didefinisikan dalam publikasi, gaya "pendek" menggunakan judul sebagai ringkasan dan "panjang" menggunakan tldr sebagai ringkasan.
Fitur meliputi:
- dokumen: kirim teks tanpa tldr.
- tldr: baris tldr.
- judul: judul terpangkas tanpa tldr.
- up: suara positif.
- skor: skor.
- num_comments: jumlah komentar.
upvote_ratio: rasio suara positif.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/ctr4si/MMN
Kode sumber :
tfds.datasets.reddit_tifu.Builder
Versi :
-
1.1.0
: Hapus dokumen kosong dan string ringkasan. -
1.1.1
: Tambahkan pemisahan train, dev, dan test (80/10/10) yang digunakan di PEGASUS ( https://arxiv.org/abs/1912.08777 ) dalam konfigurasi terpisah. Ini dibuat secara acak menggunakan fungsi pemisahan tfds dan dirilis untuk memastikan bahwa hasil di Reddit Tifu Long dapat direproduksi dan dibandingkan. Tambahkan jugaid
ke titik data. -
1.1.2
(default): Pemisahan yang diperbaiki diunggah.
-
Struktur fitur :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
dokumen | Teks | rangkaian | ||
Indo | Teks | rangkaian | ||
num_comments | Tensor | float32 | ||
skor | Tensor | float32 | ||
judul | Teks | rangkaian | ||
tldr | Teks | rangkaian | ||
UPS | Tensor | float32 | ||
rasio_upvote | Tensor | float32 |
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/pendek (konfigurasi default)
Deskripsi konfigurasi : Menggunakan judul sebagai ringkasan.
Ukuran unduhan :
639.54 MiB
Ukuran dataset :
141.46 MiB
Auto-cached ( dokumentasi ): Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 79.740 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('documents', 'title')
Contoh ( tfds.as_dataframe ):
reddit_tifu/long
Deskripsi konfigurasi : Menggunakan TLDR sebagai ringkasan.
Ukuran unduhan :
639.54 MiB
Ukuran dataset :
93.10 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 42.139 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('documents', 'tldr')
Contoh ( tfds.as_dataframe ):
reddit_tifu/long_split
Deskripsi konfigurasi : Menggunakan TLDR sebagai ringkasan dan kembalikan pemisahan kereta/tes/dev.
Ukuran unduhan :
639.94 MiB
Ukuran dataset :
93.10 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 4.214 |
'train' | 33.711 |
'validation' | 4.214 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('documents', 'tldr')
Contoh ( tfds.as_dataframe ):