- Descripción :
Conjunto de datos de resumen SummScreen, versión no anonimizada y no tokenizada.
Las divisiones y el filtrado de entrenamiento/val/prueba se basan en el conjunto de datos tokenizado final, pero las transcripciones y los resúmenes proporcionados se basan en el texto no tokenizado.
Hay dos características:
- transcripción: transcripciones completas del episodio, cada línea de diálogo separada por líneas nuevas
recapitulación: resúmenes o resúmenes de episodios
Página de inicio: https://github.com/mingdachen/SummScreen
Código fuente :
tfds.datasets.summscreen.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de la descarga :
841.27 MiB
Claves supervisadas (ver documento
as_supervised
):('transcript', 'recap')
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (configuración predeterminada)
Descripción de la configuración : ForeverDreaming
Tamaño del conjunto de datos :
132.99 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- Estructura de características :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
número_episodio | Texto | cuerda | ||
episodio_titulo | Texto | cuerda | ||
resumen | Texto | cuerda | ||
mostrar título | Texto | cuerda | ||
transcripción | Texto | cuerda | ||
transcript_author | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
pantalla de resumen/tms
Descripción de la configuración : TVMegaSite
Tamaño del conjunto de datos :
592.53 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,793 |
'train' | 18,915 |
'validation' | 1,795 |
- Estructura de características :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
episodio_resumen | Texto | cuerda | ||
resumen | Texto | cuerda | ||
resumen_autor | Texto | cuerda | ||
mostrar título | Texto | cuerda | ||
transcripción | Texto | cuerda | ||
transcript_author | Tensor | (Ninguno,) | cuerda |
- Ejemplos ( tfds.as_dataframe ):