- Mô tả :
SAMSum Corpus chứa hơn 16 nghìn đoạn hội thoại trò chuyện với phần tóm tắt được chú thích thủ công.
Có hai tính năng:
- đối thoại: văn bản đối thoại.
- tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
id: id của một ví dụ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://arxiv.org/src/1911.12237v2/anc
Mã nguồn :
tfds.datasets.samsum.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
10.71 MiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tải xuống https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và đặt train.json, val.json và test.json trong thư mục hướng dẫn sử dụng.Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- Cấu trúc tính năng :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
hội thoại | Chữ | chuỗi | ||
Tôi | Chữ | chuỗi | ||
tóm lược | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):('dialogue', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}