redazione

  • Descrizione :

NEWSROOM è un set di dati di grandi dimensioni per la formazione e la valutazione dei sistemi di riepilogo. Contiene 1,3 milioni di articoli e riassunti scritti da autori ed editori nelle redazioni di 38 importanti testate.

Le funzionalità del set di dati includono:

  • testo: inserire il testo delle notizie.
  • sommario: Riassunto per la notizia.

E funzionalità aggiuntive:

  • titolo: titolo della notizia.
  • url: url della notizia.
  • data: data dell'articolo.
  • densità: densità estrattiva.
  • copertura: copertura estrattiva.
  • compressione: rapporto di compressione.
  • densità_bin: bassa, media, alta.
  • coverage_bin: estrattivo, astrattivo.
  • compression_bin: basso, medio, alto.

Questo set di dati può essere scaricato su richiesta. Decomprimere tutti i contenuti "train.jsonl, dev.jsonl, test.jsonl" nella cartella tfds.

  • Documentazione aggiuntiva : Esplora documenti con codice

  • Pagina iniziale : https://summari.es

  • Codice sorgente : tfds.datasets.newsroom.Builder

  • Versioni :

    • 1.0.0 (impostazione predefinita): nessuna nota di rilascio.
  • Dimensioni del download : Unknown size

  • Dimensione del set di dati: 5.13 GiB

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    È necessario scaricare il set di dati da https://summari.es/download/ La pagina Web richiede la registrazione. Dopo il download, inserire i file dev.jsonl, test.jsonl e train.jsonl in manual_dir.

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 108.862
'train' 995.041
'validation' 108.837
  • Struttura delle caratteristiche :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
compressione Tensore galleggiante32
compressione_bin Testo corda
copertura Tensore galleggiante32
copertura_bin Testo corda
data Testo corda
densità Tensore galleggiante32
densità_bin Testo corda
riepilogo Testo corda
testo Testo corda
titolo Testo corda
URL Testo corda
  • Citazione :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}