- Descrição :
Este conjunto de dados de entrevistas de mídia em grande escala contém 463,6K transcrições com resumos abstratos, coletados de transcrições de entrevistas e descrições gerais/de tópicos da NPR e CNN.
Restrinja o uso deste conjunto de dados apenas para fins de pesquisa.
E, por favor, cite nosso artigo: MediaSum: um conjunto de dados de entrevista de mídia em larga escala para resumo de diálogo
Ética
Usamos apenas os dados de transcrições disponíveis publicamente das fontes de mídia e seguimos suas diretrizes de uso exclusivo para pesquisa.
Como a mídia e os convidados podem ter opiniões tendenciosas, as transcrições e resumos provavelmente as conterão. O conteúdo das transcrições e resumos refletem apenas as opiniões da mídia e dos convidados e devem ser vistos com discrição.
Página inicial : https://github.com/zcgzcgzcg1/MediaSum
Código -fonte:
tfds.datasets.media_sum.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
4.11 GiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
manual_dir deve conter os arquivos:- news_dialogue.json
- train_val_test_split.json
Os arquivos podem ser baixados e extraídos da página GitHub do conjunto de dados: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 10.000 |
'train' | 443.596 |
'val' | 10.000 |
- Estrutura de recursos :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
data | Texto | corda | ||
eu ia | Texto | corda | ||
programa | Texto | corda | ||
palestrante | Sequência (Texto) | (Nenhum,) | corda | |
resumo | Texto | corda | ||
url | Texto | corda | ||
utt | Sequência (Texto) | (Nenhum,) | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('utt', 'summary')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}