reddit_tifu

Mô tả :

Bộ dữ liệu Reddit, trong đó TIFU biểu thị tên của subbreddit /r/tifu. Như được định nghĩa trong ấn phẩm, kiểu "ngắn" sử dụng tiêu đề làm tóm tắt và "dài" sử dụng tldr làm tóm tắt.

Các tính năng bao gồm:

tài liệu: đăng văn bản mà không cần tldr.
tldr: dòng tldr.
tiêu đề: tiêu đề được cắt bớt mà không có tldr.
up: phiếu ủng hộ.
điểm: điểm.
num_comments: số bình luận.
upvote_ratio: tỷ lệ ủng hộ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/ctr4si/MMN
Mã nguồn : tfds.datasets.reddit_tifu.Builder
Phiên bản :
- 1.1.0 : Xóa tài liệu trống và chuỗi tóm tắt.
- 1.1.1 : Thêm phần tách đào tạo, phát triển và thử nghiệm (80/10/10) được sử dụng trong PEGASUS ( https://arxiv.org/abs/1912.08777 ) trong một cấu hình riêng. Chúng được tạo ngẫu nhiên bằng cách sử dụng chức năng phân tách tfds và đang được phát hành để đảm bảo rằng kết quả trên Reddit Tifu Long có thể tái tạo và so sánh được. Ngoài ra, hãy thêm id vào các điểm dữ liệu.
- 1.1.2 (mặc định): Đã tải lên các phần tách đã chỉnh sửa.
Cấu trúc tính năng :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
các tài liệu	Chữ	chuỗi
Tôi	Chữ	chuỗi
num_comments	tenxơ	phao32
ghi bàn	tenxơ	phao32
Tiêu đề	Chữ	chuỗi
tldr	Chữ	chuỗi
up	tenxơ	phao32
upvote_ratio	tenxơ	phao32

Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/ngắn (cấu hình mặc định)

Mô tả cấu hình : Sử dụng tiêu đề làm tóm tắt.
Kích thước tải xuống : 639.54 MiB
Kích thước tập dữ liệu : 141.46 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)
Chia tách :

Tách ra	ví dụ
`'train'`	79,740

Các khóa được giám sát (Xem as_supervised doc ): ('documents', 'title')
Ví dụ ( tfds.as_dataframe ):

reddit_tifu/dài

Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt.
Kích thước tải xuống : 639.54 MiB
Kích thước tập dữ liệu : 93.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'train'`	42,139

Các khóa được giám sát (Xem tài liệu as_supervised ): ('documents', 'tldr')
Ví dụ ( tfds.as_dataframe ):

reddit_tifu/long_split

Mô tả cấu hình : Sử dụng TLDR làm bản tóm tắt và trả lại các phần tách đào tạo/kiểm tra/nhà phát triển.
Kích thước tải xuống : 639.94 MiB
Kích thước tập dữ liệu : 93.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	4,214
`'train'`	33,711
`'validation'`	4,214

Các khóa được giám sát (Xem tài liệu as_supervised ): ('documents', 'tldr')
Ví dụ ( tfds.as_dataframe ):