- Mô tả :
Bộ dữ liệu phỏng vấn truyền thông quy mô lớn này chứa 463,6 nghìn bảng điểm với các tóm tắt trừu tượng, được thu thập từ bảng điểm phỏng vấn và mô tả tổng quan / chủ đề từ NPR và CNN.
Vui lòng hạn chế việc bạn sử dụng tập dữ liệu này chỉ cho mục đích nghiên cứu.
Và vui lòng trích dẫn bài báo của chúng tôi: MediaSum: Tập dữ liệu phỏng vấn phương tiện truyền thông quy mô lớn để tóm tắt đối thoại
Đạo đức
Chúng tôi đã chỉ sử dụng dữ liệu bảng điểm có sẵn công khai từ các nguồn phương tiện truyền thông và tuân thủ nguyên tắc chỉ dành cho mục đích nghiên cứu của họ.
Vì các phương tiện truyền thông và khách mời có thể có quan điểm thiên lệch, bản ghi và tóm tắt có thể sẽ chứa chúng. Nội dung của bảng điểm và tóm tắt chỉ phản ánh quan điểm của giới truyền thông và khách mời, nên tùy ý xem.
Trang chủ : https://github.com/zcgzcgzcg1/MediaSum
Mã nguồn :
tfds.summarization.media_sum.MediaSum
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
4.11 GiB
Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
manual_dir phải chứa các tệp:- news_dialogue.json
- train_val_test_split.json
Các tệp có thể được tải xuống và trích xuất từ trang GitHub của tập dữ liệu: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 10.000 |
'train' | 443.596 |
'val' | 10.000 |
- Cấu trúc tính năng :
FeaturesDict({
'date': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'program': Text(shape=(), dtype=tf.string),
'speaker': Sequence(Text(shape=(), dtype=tf.string)),
'summary': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
'utt': Sequence(Text(shape=(), dtype=tf.string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
ngày | Chữ | tf.string | ||
Tôi | Chữ | tf.string | ||
chương trình | Chữ | tf.string | ||
loa | Trình tự (Văn bản) | (Không có,) | tf.string | |
bản tóm tắt | Chữ | tf.string | ||
url | Chữ | tf.string | ||
utt | Trình tự (Văn bản) | (Không có,) | tf.string |
Khóa được giám sát (Xem
as_supervised
doc ):('utt', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}