книжная сумма

  • Описание :

BookSum: коллекция наборов данных для обобщения подробного повествования

Эта реализация в настоящее время поддерживает только сводки книг и глав.

Гитхаб: https://github.com/salesforce/booksum

  • Домашняя страница : https://github.com/salesforce/booksum

  • Исходный код : tfds.summarization.booksum.Booksum

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):

    1) Перейдите на https://github.com/salesforce/booksum и выполните шаги 1–3. Поместите весь проект booksum git в папку руководства. 2) Загрузите книги, разбитые на главы, со страницы https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip и разархивируйте их в папку руководства.

Папка manual должна содержать следующие каталоги:

- `booksum/`
- `all_chapterized_books/`
  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Структура функции :

FeaturesDict({
    'document': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
документ Текст tf.string
резюме Текст tf.string
  • Контролируемые ключи (см. as_supervised doc ): ('document', 'summary')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (конфигурация по умолчанию)

  • Описание конфигурации : обобщение на уровне книги.

  • Размер набора данных : 208.81 MiB .

  • Сплиты :

Расколоть Примеры
'test' 46
'train' 312
'validation' 45

книжная сумма / глава

  • Описание конфигурации : обобщение на уровне главы

  • Размер набора данных : 216.71 MiB .

  • Сплиты :

Расколоть Примеры
'test' 1083
'train' 6524
'validation' 891