reddit_tifu

  • Deskripsi :

Dataset Reddit, di mana TIFU menunjukkan nama subbreddit /r/tifu. Sebagaimana didefinisikan dalam publikasi, gaya "pendek" menggunakan judul sebagai ringkasan dan "panjang" menggunakan tldr sebagai ringkasan.

Fitur meliputi:

  • dokumen: kirim teks tanpa tldr.
  • tldr: baris tldr.
  • judul: judul terpangkas tanpa tldr.
  • up: suara positif.
  • skor: skor.
  • num_comments: jumlah komentar.
  • upvote_ratio: rasio suara positif.

  • Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode

  • Beranda : https://github.com/ctr4si/MMN

  • Kode sumber : tfds.datasets.reddit_tifu.Builder

  • Versi :

    • 1.1.0 : Hapus dokumen kosong dan string ringkasan.
    • 1.1.1 : Tambahkan pemisahan train, dev, dan test (80/10/10) yang digunakan di PEGASUS ( https://arxiv.org/abs/1912.08777 ) dalam konfigurasi terpisah. Ini dibuat secara acak menggunakan fungsi pemisahan tfds dan dirilis untuk memastikan bahwa hasil di Reddit Tifu Long dapat direproduksi dan dibandingkan. Tambahkan juga id ke titik data.
    • 1.1.2 (default): Pemisahan yang diperbaiki diunggah.
  • Struktur fitur :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
dokumen Teks rangkaian
Indo Teks rangkaian
num_comments Tensor float32
skor Tensor float32
judul Teks rangkaian
tldr Teks rangkaian
UPS Tensor float32
rasio_upvote Tensor float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/pendek (konfigurasi default)

  • Deskripsi konfigurasi : Menggunakan judul sebagai ringkasan.

  • Ukuran unduhan : 639.54 MiB

  • Ukuran dataset : 141.46 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 79.740

reddit_tifu/long

  • Deskripsi konfigurasi : Menggunakan TLDR sebagai ringkasan.

  • Ukuran unduhan : 639.54 MiB

  • Ukuran dataset : 93.10 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 42.139

reddit_tifu/long_split

  • Deskripsi konfigurasi : Menggunakan TLDR sebagai ringkasan dan kembalikan pemisahan kereta/tes/dev.

  • Ukuran unduhan : 639.94 MiB

  • Ukuran dataset : 93.10 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 4.214
'train' 33.711
'validation' 4.214