soma_media

Descrição :

Este conjunto de dados de entrevistas de mídia em grande escala contém 463,6K transcrições com resumos abstratos, coletados de transcrições de entrevistas e descrições gerais/de tópicos da NPR e CNN.

Restrinja o uso deste conjunto de dados apenas para fins de pesquisa.

E, por favor, cite nosso artigo: MediaSum: um conjunto de dados de entrevista de mídia em larga escala para resumo de diálogo

Ética

Usamos apenas os dados de transcrições disponíveis publicamente das fontes de mídia e seguimos suas diretrizes de uso exclusivo para pesquisa.

Como a mídia e os convidados podem ter opiniões tendenciosas, as transcrições e resumos provavelmente as conterão. O conteúdo das transcrições e resumos refletem apenas as opiniões da mídia e dos convidados e devem ser vistos com discrição.

Página inicial : https://github.com/zcgzcgzcg1/MediaSum
Código -fonte: tfds.datasets.media_sum.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : 4.11 GiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
manual_dir deve conter os arquivos:
- news_dialogue.json
- train_val_test_split.json

Os arquivos podem ser baixados e extraídos da página GitHub do conjunto de dados: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	10.000
`'train'`	443.596
`'val'`	10.000

Estrutura de recursos :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Documentação do recurso:

Recurso	Aula	Forma	Tipo D
	RecursosDict
data	Texto		corda
eu ia	Texto		corda
programa	Texto		corda
palestrante	Sequência (Texto)	(Nenhum,)	corda
resumo	Texto		corda
url	Texto		corda
utt	Sequência (Texto)	(Nenhum,)	corda

Chaves supervisionadas (Consulte as_supervised doc ): ('utt', 'summary')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

soma_media Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Ética

soma_media