haber odası

Açıklama :

NEWSROOM, özetleme sistemlerinin eğitimi ve değerlendirilmesi için geniş bir veri kümesidir. 38 büyük yayının haber odalarında yazarlar ve editörler tarafından yazılmış 1,3 milyon makale ve özet içermektedir.

Veri kümesi özellikleri şunları içerir:

metin: Haber metnini girin.
özet: Haber için özet.

Ve ek özellikler:

başlık: haber başlığı.
url: haberin url'si.
tarih: makalenin tarihi.
yoğunluk: çıkarma yoğunluğu.
kapsam: ekstraktif kapsam.
sıkıştırma: sıkıştırma oranı.
yoğunluk_bin: düşük, orta, yüksek.
coverage_bin: çıkarıcı, soyutlayıcı.
sıkıştırma_bin: düşük, orta, yüksek.

Bu veri seti istek üzerine indirilebilir. "train.jsonl, dev.jsonl, test.jsonl" dosyasının tüm içeriğini tfds klasörüne çıkartın.

Ek Belgeler : Belgeleri Keşfedin
Anasayfa : https://summari.es
Kaynak kodu : tfds.datasets.newsroom.Builder
sürümler :
- 1.0.0 (varsayılan): Sürüm notu yok.
İndirme boyutu : Unknown size
Veri kümesi boyutu : 5.13 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
Veri setini https://summari.es/download/ adresinden indirmelisiniz. Web sayfası kayıt gerektirir. İndirdikten sonra lütfen dev.jsonl, test.jsonl ve train.jsonl dosyalarını manual_dir dizinine koyun.
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :

Bölmek	örnekler
`'test'`	108.862
`'train'`	995.041
`'validation'`	108.837

Özellik yapısı :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
sıkıştırma	tensör	şamandıra32
sıkıştırma_bin	Metin	sicim
kapsama	tensör	şamandıra32
kapsama_bin	Metin	sicim
tarih	Metin	sicim
yoğunluk	tensör	şamandıra32
yoğunluk_bin	Metin	sicim
özet	Metin	sicim
metin	Metin	sicim
başlık	Metin	sicim
url	Metin	sicim

Denetlenen anahtarlar (Bkz as_supervised doc ): ('text', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):

Alıntı :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

haber odası Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

haber odası