- Mô tả:
SAMSum Corpus chứa hơn 16k cuộc hội thoại trò chuyện với các bản tóm tắt được chú thích theo cách thủ công.
Có hai tính năng:
- đối thoại: văn bản đối thoại.
- tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
id: id của một ví dụ.
Trang chủ: https://arxiv.org/src/1911.12237v2/anc
Source code:
tfds.summarization.Samsum
phiên bản:
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Dung lượng tải về:
Unknown size
Dataset kích thước:
10.71 MiB
Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tải https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và địa điểm train.json, val.json và test.json trong follder bằng tay.Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'test' | 819 |
'train' | 14.732 |
'validation' | 818 |
- Các tính năng:
FeaturesDict({
'dialogue': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('dialogue', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn:
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}