suma de libros

  • Descripción :

BookSum: una colección de conjuntos de datos para resúmenes narrativos de formato largo

Actualmente, esta implementación solo admite resúmenes de libros y capítulos.

GitHub: https://github.com/salesforce/booksum

La carpeta manual debe contener los siguientes directorios:

- `booksum/`
- `all_chapterized_books/`
  • Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)

  • Estructura de características :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
documento Texto cuerda
resumen Texto cuerda
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/libro (configuración predeterminada)

  • Descripción de la configuración : resumen a nivel de libro

  • Tamaño del conjunto de datos : 208.81 MiB

  • Divisiones :

Separar Ejemplos
'test' 46
'train' 312
'validation' 45

librosum/capítulo

  • Descripción de la configuración : resumen a nivel de capítulo

  • Tamaño del conjunto de datos : 216.71 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,083
'train' 6,524
'validation' 891