reddit_tifu

 • Mô tả :

Tập dữ liệu Reddit, trong đó TIFU biểu thị tên của subbreddit / r / tifu. Như được định nghĩa trong ấn phẩm, styel "ngắn" sử dụng tiêu đề làm tóm tắt và "dài" sử dụng tldr làm tóm tắt.

Các tính năng bao gồm: - document: đăng văn bản mà không có tldr. - tldr: dòng tldr. - title: tiêu đề bị cắt không có tldr. - up: ủng hộ. - score: điểm số. - num_comments: số lượng bình luận. - upvote_ratio: tỷ lệ ủng hộ.

 • Trang chủ : https://github.com/ctr4si/MMN

 • Mã nguồn : tfds.summarization.RedditTifu

 • Các phiên bản :

  • 1.1.0 (mặc định): Không có ghi chú phát hành.
 • Kích thước tải xuống : 639.54 MiB

 • Kích thước tập dữ liệu : Unknown size

 • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

 • Cấu trúc tính năng :

FeaturesDict({
  'documents': Text(shape=(), dtype=tf.string),
  'num_comments': tf.float32,
  'score': tf.float32,
  'title': Text(shape=(), dtype=tf.string),
  'tldr': Text(shape=(), dtype=tf.string),
  'ups': tf.float32,
  'upvote_ratio': tf.float32,
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các tài liệu Chữ tf.string
num_comments Tensor tf.float32
ghi bàn Tensor tf.float32
Tiêu đề Chữ tf.string
tldr Chữ tf.string
up Tensor tf.float32
upvote_ratio Tensor tf.float32
@misc{kim2018abstractive,
  title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
  author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
  year={2018},
  eprint={1811.00783},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

reddit_tifu / short (cấu hình mặc định)

 • Mô tả cấu hình : Sử dụng tiêu đề làm bản tóm tắt.

 • Tách :

Tách ra Các ví dụ
'train' 79,740

reddit_tifu / long

 • Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt.

 • Tách :

Tách ra Các ví dụ
'train' 42.139