wikihow

  • Описание :

WikiHow — это новый крупномасштабный набор данных, использующий онлайновую базу знаний WikiHow ( http://www.wikihow.com/ ).

Есть две функции: - текст: wikihow отвечает на тексты. - заголовок: жирные линии в качестве резюме.

Есть две отдельные версии: - all: состоит из объединения всех абзацев в виде статей и выделенных жирным шрифтом строк в виде кратких ссылок. - sep: состоит из каждого абзаца и его резюме.

Загрузите «wikihowAll.csv» и «wikihowSep.csv» с https://github.com/mahnazkoupaee/WikiHow-Dataset и поместите их в папку вручную https://www.tensorflow.org/datasets/api_docs/python/tfds/ Разделы download/DownloadConfig Train/validation/test предоставлены авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации < 0,75 длины статьи) и очистки лишних запятых.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (конфигурация по умолчанию)

  • Описание конфигурации : используйте объединение всех абзацев в качестве статей и выделенных жирным шрифтом строк в качестве справочных сводок.

  • Размер набора данных : 531.56 MiB .

  • Сплиты :

Расколоть Примеры
'test' 5 577
'train' 157 252
'validation' 5 599
  • Структура функции :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Заголовок Текст нить
текст Текст нить
заглавие Текст нить

wikihow/сен

  • Описание конфигурации : используйте каждый абзац и его краткое содержание.

  • Размер набора данных : 1.07 GiB

  • Сплиты :

Расколоть Примеры
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Структура функции :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Заголовок Текст нить
обзор Текст нить
разделЭтикетка Текст нить
текст Текст нить
заглавие Текст нить