reddit_tifu

  • Mô tả :

Bộ dữ liệu Reddit, trong đó TIFU biểu thị tên của subbreddit /r/tifu. Như được định nghĩa trong ấn phẩm, kiểu "ngắn" sử dụng tiêu đề làm tóm tắt và "dài" sử dụng tldr làm tóm tắt.

Các tính năng bao gồm:

  • tài liệu: đăng văn bản mà không cần tldr.
  • tldr: dòng tldr.
  • tiêu đề: tiêu đề được cắt bớt mà không có tldr.
  • up: phiếu ủng hộ.
  • điểm: điểm.
  • num_comments: số bình luận.
  • upvote_ratio: tỷ lệ ủng hộ.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://github.com/ctr4si/MMN

  • Mã nguồn : tfds.datasets.reddit_tifu.Builder

  • Phiên bản :

    • 1.1.0 : Xóa tài liệu trống và chuỗi tóm tắt.
    • 1.1.1 : Thêm phần tách đào tạo, phát triển và thử nghiệm (80/10/10) được sử dụng trong PEGASUS ( https://arxiv.org/abs/1912.08777 ) trong một cấu hình riêng. Chúng được tạo ngẫu nhiên bằng cách sử dụng chức năng phân tách tfds và đang được phát hành để đảm bảo rằng kết quả trên Reddit Tifu Long có thể tái tạo và so sánh được. Ngoài ra, hãy thêm id vào các điểm dữ liệu.
    • 1.1.2 (mặc định): Đã tải lên các phần tách đã chỉnh sửa.
  • Cấu trúc tính năng :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
các tài liệu Chữ chuỗi
Tôi Chữ chuỗi
num_comments tenxơ phao32
ghi bàn tenxơ phao32
Tiêu đề Chữ chuỗi
tldr Chữ chuỗi
up tenxơ phao32
upvote_ratio tenxơ phao32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/ngắn (cấu hình mặc định)

  • Mô tả cấu hình : Sử dụng tiêu đề làm tóm tắt.

  • Kích thước tải xuống : 639.54 MiB

  • Kích thước tập dữ liệu : 141.46 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 79,740

reddit_tifu/dài

  • Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt.

  • Kích thước tải xuống : 639.54 MiB

  • Kích thước tập dữ liệu : 93.10 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 42,139

reddit_tifu/long_split

  • Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt và trả lại các phần tách đào tạo/kiểm tra/nhà phát triển.

  • Kích thước tải xuống : 639.94 MiB

  • Kích thước tập dữ liệu : 93.10 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 4,214
'train' 33,711
'validation' 4,214