- Descrição :
Conjunto de dados SummScreen Summarization, versão não anônima e não tokenizada.
As divisões e filtragem de treinamento/val/teste são baseadas no conjunto de dados tokenizado final, mas as transcrições e recapitulações fornecidas são baseadas no texto não tokenizado.
Existem duas características:
- transcrição: transcrições completas do episódio, cada linha de diálogo separada por novas linhas
recap: Recapitulações ou resumos de episódios
Página inicial : https://github.com/mingdachen/SummScreen
Código -fonte:
tfds.datasets.summscreen.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
841.27 MiB
Chaves supervisionadas (Consulte
as_supervised
doc ):('transcript', 'recap')
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (configuração padrão)
Descrição da configuração : ForeverDreaming
Tamanho do conjunto de dados :
132.99 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 337 |
'train' | 3.673 |
'validation' | 338 |
- Estrutura de recursos :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_número | Texto | corda | ||
episódio_título | Texto | corda | ||
recapitular | Texto | corda | ||
mostrar_título | Texto | corda | ||
transcrição | Texto | corda | ||
transcrição_autor | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
tela de resumo/tms
Descrição da configuração : TVMegaSite
Tamanho do conjunto de dados :
592.53 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.793 |
'train' | 18.915 |
'validation' | 1.795 |
- Estrutura de recursos :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_resumo | Texto | corda | ||
recapitular | Texto | corda | ||
recap_autor | Texto | corda | ||
mostrar_título | Texto | corda | ||
transcrição | Texto | corda | ||
transcrição_autor | tensor | (Nenhum,) | corda |
- Exemplos ( tfds.as_dataframe ):