media_sum

  • Mô tả :

Bộ dữ liệu phỏng vấn truyền thông quy mô lớn này chứa 463,6 nghìn bảng điểm với các tóm tắt trừu tượng, được thu thập từ bảng điểm phỏng vấn và mô tả tổng quan / chủ đề từ NPR và CNN.

Vui lòng hạn chế việc bạn sử dụng tập dữ liệu này chỉ cho mục đích nghiên cứu.

Và vui lòng trích dẫn bài báo của chúng tôi: MediaSum: Tập dữ liệu phỏng vấn phương tiện truyền thông quy mô lớn để tóm tắt đối thoại

Đạo đức

Chúng tôi đã chỉ sử dụng dữ liệu bảng điểm có sẵn công khai từ các nguồn phương tiện truyền thông và tuân thủ nguyên tắc chỉ dành cho mục đích nghiên cứu của họ.

Vì các phương tiện truyền thông và khách mời có thể có quan điểm thiên lệch, bản ghi và tóm tắt có thể sẽ chứa chúng. Nội dung của bảng điểm và tóm tắt chỉ phản ánh quan điểm của giới truyền thông và khách mời, nên tùy ý xem.

  • Trang chủ : https://github.com/zcgzcgzcg1/MediaSum

  • Mã nguồn : tfds.summarization.media_sum.MediaSum

  • Các phiên bản :

    • 1.0.0 (mặc định): Bản phát hành ban đầu.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 4.11 GiB

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir phải chứa các tệp:

    • news_dialogue.json
    • train_val_test_split.json

Các tệp có thể được tải xuống và trích xuất từ ​​trang GitHub của tập dữ liệu: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 10.000
'train' 443.596
'val' 10.000
  • Cấu trúc tính năng :
FeaturesDict({
    'date': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'program': Text(shape=(), dtype=tf.string),
    'speaker': Sequence(Text(shape=(), dtype=tf.string)),
    'summary': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
    'utt': Sequence(Text(shape=(), dtype=tf.string)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
ngày Chữ tf.string
Tôi Chữ tf.string
chương trình Chữ tf.string
loa Trình tự (Văn bản) (Không có,) tf.string
bản tóm tắt Chữ tf.string
url Chữ tf.string
utt Trình tự (Văn bản) (Không có,) tf.string
  • Trích dẫn :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}