haber odası

  • Açıklama :

NEWSROOM, özetleme sistemlerinin eğitimi ve değerlendirilmesi için geniş bir veri kümesidir. 38 büyük yayının haber odalarında yazarlar ve editörler tarafından yazılmış 1,3 milyon makale ve özet içermektedir.

Veri kümesi özellikleri şunları içerir:

  • metin: Haber metnini girin.
  • özet: Haber için özet.

Ve ek özellikler:

  • başlık: haber başlığı.
  • url: haberin url'si.
  • tarih: makalenin tarihi.
  • yoğunluk: çıkarma yoğunluğu.
  • kapsam: ekstraktif kapsam.
  • sıkıştırma: sıkıştırma oranı.
  • yoğunluk_bin: düşük, orta, yüksek.
  • coverage_bin: çıkarıcı, soyutlayıcı.
  • sıkıştırma_bin: düşük, orta, yüksek.

Bu veri seti istek üzerine indirilebilir. "train.jsonl, dev.jsonl, test.jsonl" dosyasının tüm içeriğini tfds klasörüne çıkartın.

  • Ek Belgeler : Belgeleri Keşfedin

  • Anasayfa : https://summari.es

  • Kaynak kodu : tfds.datasets.newsroom.Builder

  • sürümler :

    • 1.0.0 (varsayılan): Sürüm notu yok.
  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : 5.13 GiB

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
    Veri setini https://summari.es/download/ adresinden indirmelisiniz. Web sayfası kayıt gerektirir. İndirdikten sonra lütfen dev.jsonl, test.jsonl ve train.jsonl dosyalarını manual_dir dizinine koyun.

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'test' 108.862
'train' 995.041
'validation' 108.837
  • Özellik yapısı :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
sıkıştırma tensör şamandıra32
sıkıştırma_bin Metin sicim
kapsama tensör şamandıra32
kapsama_bin Metin sicim
tarih Metin sicim
yoğunluk tensör şamandıra32
yoğunluk_bin Metin sicim
özet Metin sicim
metin Metin sicim
başlık Metin sicim
url Metin sicim
  • Alıntı :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}