media_sum

Mô tả :

Bộ dữ liệu phỏng vấn truyền thông quy mô lớn này chứa 463,6 nghìn bản ghi với các bản tóm tắt trừu tượng, được thu thập từ bản ghi cuộc phỏng vấn và mô tả tổng quan/chủ đề từ NPR và CNN.

Vui lòng giới hạn việc sử dụng tập dữ liệu này chỉ cho mục đích nghiên cứu.

Và vui lòng trích dẫn bài báo của chúng tôi: MediaSum: Bộ dữ liệu phỏng vấn truyền thông quy mô lớn để tóm tắt đối thoại

đạo đức

Chúng tôi chỉ sử dụng dữ liệu bảng điểm có sẵn công khai từ các nguồn truyền thông và tuân thủ nguyên tắc chỉ dành cho mục đích nghiên cứu của họ.

Vì phương tiện truyền thông và khách mời có thể có quan điểm thiên vị, nên bản ghi và tóm tắt có thể sẽ chứa những quan điểm đó. Nội dung của các bản ghi và tóm tắt chỉ phản ánh quan điểm của giới truyền thông và khách mời, và cần được xem xét một cách thận trọng.

Trang chủ : https://github.com/zcgzcgzcg1/MediaSum
Mã nguồn : tfds.datasets.media_sum.Builder
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : 4.11 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
manual_dir phải chứa các tệp:
- news_dialogue.json
- train_val_test_split.json

Có thể tải xuống và trích xuất các tệp từ trang GitHub của tập dữ liệu: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	10.000
`'train'`	443,596
`'val'`	10.000

Cấu trúc tính năng :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	Dtype
	Tính năngDict
ngày	Chữ		sợi dây
nhận dạng	Chữ		sợi dây
chương trình	Chữ		sợi dây
loa	Trình tự (Văn bản)	(Không có,)	sợi dây
bản tóm tắt	Chữ		sợi dây
url	Chữ		sợi dây
ừm	Trình tự (Văn bản)	(Không có,)	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('utt', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

đạo đức

media_sum