- Descrição :
NEWSROOM é um grande conjunto de dados para treinamento e avaliação de sistemas de resumo. Contém 1,3 milhão de artigos e resumos escritos por autores e editores nas redações de 38 grandes publicações.
Os recursos do conjunto de dados incluem:
- text: Digite o texto da notícia.
- resumo: Resumo das notícias.
E recursos adicionais:
- título: título da notícia.
- url: url da notícia.
- data: data do artigo.
- densidade: densidade extrativa.
- cobertura: cobertura extrativa.
- compressão: taxa de compressão.
- densidade_bin: baixo, médio, alto.
- coverage_bin: extrativo, abstrativo.
- compressão_bin: baixo, médio, alto.
Este conjunto de dados pode ser baixado mediante solicitação. Descompacte todo o conteúdo "train.jsonl, dev.jsonl, test.jsonl" na pasta tfds.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://summari.es
Código -fonte:
tfds.datasets.newsroom.Builder
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
5.13 GiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Você deve baixar o conjunto de dados de https://summari.es/download/ A página web requer registro. Após o download, coloque os arquivos dev.jsonl, test.jsonl e train.jsonl no manual_dir.Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Estrutura de recursos :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
compressão | tensor | float32 | ||
compressão_bin | Texto | corda | ||
cobertura | tensor | float32 | ||
cobertura_bin | Texto | corda | ||
data | Texto | corda | ||
densidade | tensor | float32 | ||
densidade_bin | Texto | corda | ||
resumo | Texto | corda | ||
texto | Texto | corda | ||
título | Texto | corda | ||
url | Texto | corda |
Chaves supervisionadas (Veja
as_supervised
doc ):('text', 'summary')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}