- Mô tả :
Bộ dữ liệu Reddit, trong đó TIFU biểu thị tên của subbreddit /r/tifu. Như được định nghĩa trong ấn phẩm, kiểu "ngắn" sử dụng tiêu đề làm tóm tắt và "dài" sử dụng tldr làm tóm tắt.
Các tính năng bao gồm:
- tài liệu: đăng văn bản mà không cần tldr.
- tldr: dòng tldr.
- tiêu đề: tiêu đề được cắt bớt mà không có tldr.
- up: phiếu ủng hộ.
- điểm: điểm.
- num_comments: số bình luận.
upvote_ratio: tỷ lệ ủng hộ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/ctr4si/MMN
Mã nguồn :
tfds.datasets.reddit_tifu.Builder
Phiên bản :
-
1.1.0
: Xóa tài liệu trống và chuỗi tóm tắt. -
1.1.1
: Thêm phần tách đào tạo, phát triển và thử nghiệm (80/10/10) được sử dụng trong PEGASUS ( https://arxiv.org/abs/1912.08777 ) trong một cấu hình riêng. Chúng được tạo ngẫu nhiên bằng cách sử dụng chức năng phân tách tfds và đang được phát hành để đảm bảo rằng kết quả trên Reddit Tifu Long có thể tái tạo và so sánh được. Ngoài ra, hãy thêmid
vào các điểm dữ liệu. -
1.1.2
(mặc định): Đã tải lên các phần tách đã chỉnh sửa.
-
Cấu trúc tính năng :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
các tài liệu | Chữ | chuỗi | ||
Tôi | Chữ | chuỗi | ||
num_comments | tenxơ | phao32 | ||
ghi bàn | tenxơ | phao32 | ||
Tiêu đề | Chữ | chuỗi | ||
tldr | Chữ | chuỗi | ||
up | tenxơ | phao32 | ||
upvote_ratio | tenxơ | phao32 |
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/ngắn (cấu hình mặc định)
Mô tả cấu hình : Sử dụng tiêu đề làm tóm tắt.
Kích thước tải xuống :
639.54 MiB
Kích thước tập dữ liệu :
141.46 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 79,740 |
Các khóa được giám sát (Xem
as_supervised
doc ):('documents', 'title')
Ví dụ ( tfds.as_dataframe ):
reddit_tifu/dài
Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt.
Kích thước tải xuống :
639.54 MiB
Kích thước tập dữ liệu :
93.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 42,139 |
Các khóa được giám sát (Xem tài liệu
as_supervised
):('documents', 'tldr')
Ví dụ ( tfds.as_dataframe ):
reddit_tifu/long_split
Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt và trả lại các phần tách đào tạo/kiểm tra/nhà phát triển.
Kích thước tải xuống :
639.94 MiB
Kích thước tập dữ liệu :
93.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
Các khóa được giám sát (Xem tài liệu
as_supervised
):('documents', 'tldr')
Ví dụ ( tfds.as_dataframe ):