sinh tử

Mô tả :

SAMSum Corpus chứa hơn 16 nghìn đoạn hội thoại trò chuyện với phần tóm tắt được chú thích thủ công.

Có hai tính năng:

đối thoại: văn bản đối thoại.
tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
id: id của một ví dụ.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://arxiv.org/src/1911.12237v2/anc
Mã nguồn : tfds.datasets.samsum.Builder
Phiên bản :
- 1.0.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : 10.71 MiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Tải xuống https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và đặt train.json, val.json và test.json trong thư mục hướng dẫn sử dụng.
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	819
`'train'`	14,732
`'validation'`	818

Cấu trúc tính năng :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
hội thoại	Chữ	chuỗi
Tôi	Chữ	chuỗi
tóm lược	Chữ	chuỗi

Các khóa được giám sát (Xem as_supervised doc ): ('dialogue', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

sinh tử Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

sinh tử