reddit_tifu

  • Описание :

Набор данных Reddit, где TIFU обозначает название суббреддита /r/tifu. Как определено в публикации, стиль «короткий» использует заголовок в качестве сводки, а «длинный» использует tldr в качестве сводки.

Особенности включают в себя: - документ: размещать текст без tldr. - TLDR: строка TLDR. - заголовок: обрезанный заголовок без tldr. - ups: голоса. - оценка: оценка. - num_comments: количество комментариев. - upvote_ratio: соотношение голосов.

  • Домашняя страница : https://github.com/ctr4si/MMN

  • Исходный код : tfds.summarization.RedditTifu

  • Версии :

    • 1.1.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : 639.54 MiB

  • Размер набора данных : Unknown size

  • Автокэширование ( документация ): неизвестно

  • Структура функции :

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
документы Текст tf.string
num_comments Тензор tf.float32
счет Тензор tf.float32
заглавие Текст tf.string
tldr Текст tf.string
UPS Тензор tf.float32
upvote_ratio Тензор tf.float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (конфигурация по умолчанию)

  • Описание конфигурации : использование заголовка в качестве сводки.

  • Сплиты :

Расколоть Примеры
'train' 79 740
  • Контролируемые ключи (см. as_supervised doc ): ('documents', 'title')

reddit_tifu/длинный

  • Описание конфигурации : Использование TLDR в качестве сводки.

  • Сплиты :

Расколоть Примеры
'train' 42 139
  • Контролируемые ключи (см. as_supervised doc ): ('documents', 'tldr')