Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

tela de resumo

Descrição :

Conjunto de dados SummScreen Summarization, versão não anônima e não tokenizada.

As divisões e filtragem de treinamento/val/teste são baseadas no conjunto de dados tokenizado final, mas as transcrições e recapitulações fornecidas são baseadas no texto não tokenizado.

Existem duas características:

transcrição: transcrições completas do episódio, cada linha de diálogo separada por novas linhas
recap: Recapitulações ou resumos de episódios
Página inicial : https://github.com/mingdachen/SummScreen
Código -fonte: tfds.datasets.summscreen.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : 841.27 MiB
Chaves supervisionadas (Consulte as_supervised doc ): ('transcript', 'recap')
Figura ( tfds.show_examples ): Não compatível.
Citação :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (configuração padrão)

Descrição da configuração : ForeverDreaming
Tamanho do conjunto de dados : 132.99 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'test'`	337
`'train'`	3.673
`'validation'`	338

Estrutura de recursos :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
episódio_número	Texto	corda
episódio_título	Texto	corda
recapitular	Texto	corda
mostrar_título	Texto	corda
transcrição	Texto	corda
transcrição_autor	Texto	corda

Exemplos ( tfds.as_dataframe ):

tela de resumo/tms

Descrição da configuração : TVMegaSite
Tamanho do conjunto de dados : 592.53 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	1.793
`'train'`	18.915
`'validation'`	1.795

Estrutura de recursos :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_resumo	Texto		corda
recapitular	Texto		corda
recap_autor	Texto		corda
mostrar_título	Texto		corda
transcrição	Texto		corda
transcrição_autor	tensor	(Nenhum,)	corda

Exemplos ( tfds.as_dataframe ):

tela de resumo Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

summscreen/fd (configuração padrão)

tela de resumo/tms

tela de resumo