redação

  • Descrição :

NEWSROOM é um grande conjunto de dados para treinamento e avaliação de sistemas de resumo. Contém 1,3 milhão de artigos e resumos escritos por autores e editores nas redações de 38 grandes publicações.

Os recursos do conjunto de dados incluem:

  • text: Digite o texto da notícia.
  • resumo: Resumo das notícias.

E recursos adicionais:

  • título: título da notícia.
  • url: url da notícia.
  • data: data do artigo.
  • densidade: densidade extrativa.
  • cobertura: cobertura extrativa.
  • compressão: taxa de compressão.
  • densidade_bin: baixo, médio, alto.
  • coverage_bin: extrativo, abstrativo.
  • compressão_bin: baixo, médio, alto.

Este conjunto de dados pode ser baixado mediante solicitação. Descompacte todo o conteúdo "train.jsonl, dev.jsonl, test.jsonl" na pasta tfds.

  • Documentação Adicional : Explore em Papers With Code

  • Página inicial : https://summari.es

  • Código -fonte: tfds.datasets.newsroom.Builder

  • Versões :

    • 1.0.0 (padrão): sem notas de versão.
  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : 5.13 GiB

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Você deve baixar o conjunto de dados de https://summari.es/download/ A página web requer registro. Após o download, coloque os arquivos dev.jsonl, test.jsonl e train.jsonl no manual_dir.

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 108.862
'train' 995.041
'validation' 108.837
  • Estrutura de recursos :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
compressão tensor float32
compressão_bin Texto corda
cobertura tensor float32
cobertura_bin Texto corda
data Texto corda
densidade tensor float32
densidade_bin Texto corda
resumo Texto corda
texto Texto corda
título Texto corda
url Texto corda
  • Citação :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}