- Mô tả :
Bộ dữ liệu phỏng vấn truyền thông quy mô lớn này chứa 463,6 nghìn bản ghi với các bản tóm tắt trừu tượng, được thu thập từ bản ghi cuộc phỏng vấn và mô tả tổng quan/chủ đề từ NPR và CNN.
Vui lòng giới hạn việc sử dụng tập dữ liệu này chỉ cho mục đích nghiên cứu.
Và vui lòng trích dẫn bài báo của chúng tôi: MediaSum: Bộ dữ liệu phỏng vấn truyền thông quy mô lớn để tóm tắt đối thoại
đạo đức
Chúng tôi chỉ sử dụng dữ liệu bảng điểm có sẵn công khai từ các nguồn truyền thông và tuân thủ nguyên tắc chỉ dành cho mục đích nghiên cứu của họ.
Vì phương tiện truyền thông và khách mời có thể có quan điểm thiên vị, nên bản ghi và tóm tắt có thể sẽ chứa những quan điểm đó. Nội dung của các bản ghi và tóm tắt chỉ phản ánh quan điểm của giới truyền thông và khách mời, và cần được xem xét một cách thận trọng.
Trang chủ : https://github.com/zcgzcgzcg1/MediaSum
Mã nguồn :
tfds.datasets.media_sum.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
4.11 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
manual_dir phải chứa các tệp:- news_dialogue.json
- train_val_test_split.json
Có thể tải xuống và trích xuất các tệp từ trang GitHub của tập dữ liệu: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10.000 |
'train' | 443,596 |
'val' | 10.000 |
- Cấu trúc tính năng :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ngày | Chữ | sợi dây | ||
nhận dạng | Chữ | sợi dây | ||
chương trình | Chữ | sợi dây | ||
loa | Trình tự (Văn bản) | (Không có,) | sợi dây | |
bản tóm tắt | Chữ | sợi dây | ||
url | Chữ | sợi dây | ||
ừm | Trình tự (Văn bản) | (Không có,) | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('utt', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}