самсум

  • Описание:

SAMSum Corpus содержит более 16 тыс. Диалогов чата с аннотациями, аннотированными вручную.

Есть две особенности:

  • диалог: текст диалога.
  • Резюме: человеческое письменное резюме диалога.
  • id: id примера.

  • Домашняя страница: https://arxiv.org/src/1911.12237v2/anc

  • Исходный код: tfds.summarization.Samsum

  • Версии:

    • 1.0.0 ( по умолчанию): Нет Замечания к выпуску.
  • Размер загрузки: Unknown size

  • Dataset Размер: 10.71 MiB

  • Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в download_config.manual_dir ( по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Скачать https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распаковывать и место train.json, val.json и test.json в ручном follder.

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'test' 819
'train' 14 732
'validation' 818
  • Особенности:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}