reddit_tifu

  • Mô tả :

Tập dữ liệu Reddit, trong đó TIFU biểu thị tên của subbreddit / r / tifu. Như được định nghĩa trong ấn phẩm, styel "ngắn" sử dụng tiêu đề làm tóm tắt và "dài" sử dụng tldr làm tóm tắt.

Các tính năng bao gồm: - document: đăng văn bản mà không có tldr. - tldr: dòng tldr. - title: tiêu đề bị cắt không có tldr. - up: ủng hộ. - score: điểm số. - num_comments: số lượng bình luận. - upvote_ratio: tỷ lệ ủng hộ.

  • Trang chủ : https://github.com/ctr4si/MMN

  • Mã nguồn : tfds.summarization.RedditTifu

  • Các phiên bản :

    • 1.1.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : 639.54 MiB

  • Kích thước tập dữ liệu : Unknown size

  • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

  • Cấu trúc tính năng :

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các tài liệu Chữ tf.string
num_comments Tensor tf.float32
ghi bàn Tensor tf.float32
Tiêu đề Chữ tf.string
tldr Chữ tf.string
up Tensor tf.float32
upvote_ratio Tensor tf.float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short (cấu hình mặc định)

  • Mô tả cấu hình : Sử dụng tiêu đề làm bản tóm tắt.

  • Tách :

Tách ra Các ví dụ
'train' 79,740

reddit_tifu / long

  • Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt.

  • Tách :

Tách ra Các ví dụ
'train' 42.139