wikihow

  • Описание :

WikiHow — это новый крупномасштабный набор данных, использующий онлайновую базу знаний WikiHow ( http://www.wikihow.com/ ).

Есть две функции: - текст: wikihow отвечает на тексты. - заголовок: жирные линии в качестве резюме.

Есть две отдельные версии: - all: состоит из объединения всех абзацев в виде статей и выделенных жирным шрифтом строк в виде кратких ссылок. - sep: состоит из каждого абзаца и его резюме.

Загрузите «wikihowAll.csv» и «wikihowSep.csv» с https://github.com/mahnazkoupaee/WikiHow-Dataset и поместите их в папку вручную https://www.tensorflow.org/datasets/api_docs/python/tfds/ Разделы download/DownloadConfig Train/validation/test предоставлены авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации < 0,75 длины статьи) и очистки лишних запятых.

  • Домашняя страница : https://github.com/mahnazkoupaee/WikiHow-Dataset

  • Исходный код : tfds.summarization.Wikihow

  • Версии :

    • 1.2.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : 5.21 MiB

  • Размер набора данных : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Ссылки на файлы можно найти на https://github.com/mahnazkoupaee/WikiHow-Dataset Пожалуйста, загрузите файлы wikihowAll.csv и wikihowSep.csv.

  • Автокэширование ( документация ): неизвестно

  • Контролируемые ключи (см. as_supervised doc ): ('text', 'headline')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Примеры ( tfds.as_dataframe ): отсутствует.

  • Цитата :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (конфигурация по умолчанию)

  • Описание конфигурации : используйте объединение всех абзацев в качестве статей и выделенных жирным шрифтом строк в качестве справочных сводок.

  • Сплиты :

Расколоть Примеры
'test' 5 577
'train' 157 252
'validation' 5 599
  • Структура функции :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Заголовок Текст tf.string
текст Текст tf.string
заглавие Текст tf.string

wikihow/сен

  • Описание конфигурации : используйте каждый абзац и его краткое содержание.

  • Сплиты :

Расколоть Примеры
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Структура функции :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Заголовок Текст tf.string
обзор Текст tf.string
разделЭтикетка Текст tf.string
текст Текст tf.string
заглавие Текст tf.string