sinh tử

  • Mô tả:

SAMSum Corpus chứa hơn 16k cuộc hội thoại trò chuyện với các bản tóm tắt được chú thích theo cách thủ công.

Có hai tính năng:

  • đối thoại: văn bản đối thoại.
  • tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
  • id: id của một ví dụ.

  • Trang chủ: https://arxiv.org/src/1911.12237v2/anc

  • Source code: tfds.summarization.Samsum

  • phiên bản:

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Dung lượng tải về: Unknown size

  • Dataset kích thước: 10.71 MiB

  • Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Tải https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và địa điểm train.json, val.json và test.json trong follder bằng tay.

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'test' 819
'train' 14.732
'validation' 818
  • Các tính năng:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}