reddit_disentanglement

  • Описание :

Этот набор данных содержит около 3 млн сообщений с Reddit. Каждое сообщение помечено метаданными. Задача состоит в том, чтобы предсказать идентификатор своего родительского сообщения в соответствующем потоке. Каждая запись содержит список сообщений из одного потока. Дублированные и неработающие записи удаляются из набора данных.

Особенности:

  • id - идентификатор сообщения
  • текст - текст сообщения
  • автор - автор сообщения
  • created_utc - временная метка сообщения в формате UTC
  • link_id - id поста, к которому относится комментарий

Цель:

  • parent_id - id родительского сообщения в текущем треде

  • Домашняя страница : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • Исходный код : tfds.datasets.reddit_disentanglement.Builder

  • Версии :

    • 2.0.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Загрузите https://github.com/henghuiz/MaskedHierarchicalTransformer, распакуйте файл raw_data.zip и запустите generate_dataset.py с вашими учетными данными Reddit API. Затем поместите train.csv, val.csv и test.csv из выходного каталога в папку руководства.

  • Автокэширование ( документация ): неизвестно

  • Сплиты :

Расколоть Примеры
  • Структура функции :
FeaturesDict({
   
'thread': Sequence({
       
'author': Text(shape=(), dtype=string),
       
'created_utc': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
       
'link_id': Text(shape=(), dtype=string),
       
'parent_id': Text(shape=(), dtype=string),
       
'text': Text(shape=(), dtype=string),
   
}),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
нить Последовательность
тема/автор Текст нить
поток / created_utc Текст нить
поток/идентификатор Текст нить
поток/link_id Текст нить
поток/parent_id Текст нить
нить/текст Текст нить
@article{zhu2019did,
  title
={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author
={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal
={arXiv preprint arXiv:1911.10666},
  year
={2019}
}