media_sum

  • Описание :

Этот крупномасштабный набор данных интервью для СМИ содержит 463,6 тыс. расшифровок стенограмм с абстрактными резюме, собранных из расшифровок интервью и обзоров / описаний тем из NPR и CNN.

Пожалуйста, ограничьте использование этого набора данных только исследовательскими целями.

И, пожалуйста, процитируйте нашу статью: MediaSum: крупномасштабный набор данных интервью для СМИ для обобщения диалогов.

Этика

Мы использовали только общедоступные данные транскриптов из источников СМИ и придерживаемся их руководства только для исследовательских целей.

Поскольку у СМИ и гостей могут быть предвзятые взгляды, они, скорее всего, будут содержаться в стенограммах и резюме. Содержание стенограмм и резюме отражает только точку зрения представителей СМИ и гостей, и к нему следует относиться осторожно.

  • Домашняя страница : https://github.com/zcgzcgzcg1/MediaSum

  • Исходный код : tfds.summarization.media_sum.MediaSum

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : Unknown size

  • Размер набора данных : 4.11 GiB

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir должен содержать файлы:

    • news_dialogue.json
    • train_val_test_split.json

Файлы можно загрузить и извлечь со страницы набора данных GitHub: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data .

Расколоть Примеры
'test' 10 000
'train' 443 596
'val' 10 000
  • Структура функции :
FeaturesDict({
    'date': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'program': Text(shape=(), dtype=tf.string),
    'speaker': Sequence(Text(shape=(), dtype=tf.string)),
    'summary': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
    'utt': Sequence(Text(shape=(), dtype=tf.string)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
свидание Текст tf.string
я бы Текст tf.string
программа Текст tf.string
оратор Последовательность (текст) (Никто,) tf.string
резюме Текст tf.string
URL Текст tf.string
утт Последовательность (текст) (Никто,) tf.string
  • Цитата :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}