soma_media

  • Descrição :

Este conjunto de dados de entrevistas de mídia em grande escala contém 463,6K transcrições com resumos abstratos, coletados de transcrições de entrevistas e descrições gerais/de tópicos da NPR e CNN.

Restrinja o uso deste conjunto de dados apenas para fins de pesquisa.

E, por favor, cite nosso artigo: MediaSum: um conjunto de dados de entrevista de mídia em larga escala para resumo de diálogo

Ética

Usamos apenas os dados de transcrições disponíveis publicamente das fontes de mídia e seguimos suas diretrizes de uso exclusivo para pesquisa.

Como a mídia e os convidados podem ter opiniões tendenciosas, as transcrições e resumos provavelmente as conterão. O conteúdo das transcrições e resumos refletem apenas as opiniões da mídia e dos convidados e devem ser vistos com discrição.

  • Página inicial : https://github.com/zcgzcgzcg1/MediaSum

  • Código -fonte: tfds.datasets.media_sum.Builder

  • Versões :

    • 1.0.0 (padrão): versão inicial.
  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : 4.11 GiB

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir deve conter os arquivos:

    • news_dialogue.json
    • train_val_test_split.json

Os arquivos podem ser baixados e extraídos da página GitHub do conjunto de dados: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 10.000
'train' 443.596
'val' 10.000
  • Estrutura de recursos :
FeaturesDict({
   
'date': Text(shape=(), dtype=string),
   
'id': Text(shape=(), dtype=string),
   
'program': Text(shape=(), dtype=string),
   
'speaker': Sequence(Text(shape=(), dtype=string)),
   
'summary': Text(shape=(), dtype=string),
   
'url': Text(shape=(), dtype=string),
   
'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
data Texto corda
eu ia Texto corda
programa Texto corda
palestrante Sequência (Texto) (Nenhum,) corda
resumo Texto corda
url Texto corda
utt Sequência (Texto) (Nenhum,) corda
  • Citação :
@article{zhu2021mediasum,
  title
={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author
={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal
={arXiv preprint arXiv:2103.06410},
  year
={2021}
}