sinh tử

  • Mô tả :

SAMSum Corpus chứa hơn 16 nghìn đoạn hội thoại trò chuyện với phần tóm tắt được chú thích thủ công.

Có hai tính năng:

  • đối thoại: văn bản đối thoại.
  • tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
  • id: id của một ví dụ.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://arxiv.org/src/1911.12237v2/anc

  • Mã nguồn : tfds.datasets.samsum.Builder

  • Phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 10.71 MiB

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Tải xuống https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và đặt train.json, val.json và test.json trong thư mục hướng dẫn sử dụng.

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 819
'train' 14,732
'validation' 818
  • Cấu trúc tính năng :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
hội thoại Chữ chuỗi
Tôi Chữ chuỗi
tóm lược Chữ chuỗi
  • trích dẫn :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}