- Açıklama :
NEWSROOM, özetleme sistemlerinin eğitimi ve değerlendirilmesi için geniş bir veri kümesidir. 38 büyük yayının haber odalarında yazarlar ve editörler tarafından yazılmış 1,3 milyon makale ve özet içermektedir.
Veri kümesi özellikleri şunları içerir:
- metin: Haber metnini girin.
- özet: Haber için özet.
Ve ek özellikler:
- başlık: haber başlığı.
- url: haberin url'si.
- tarih: makalenin tarihi.
- yoğunluk: çıkarma yoğunluğu.
- kapsam: ekstraktif kapsam.
- sıkıştırma: sıkıştırma oranı.
- yoğunluk_bin: düşük, orta, yüksek.
- coverage_bin: çıkarıcı, soyutlayıcı.
- sıkıştırma_bin: düşük, orta, yüksek.
Bu veri seti istek üzerine indirilebilir. "train.jsonl, dev.jsonl, test.jsonl" dosyasının tüm içeriğini tfds klasörüne çıkartın.
Anasayfa : https://summari.es
Kaynak kodu :
tfds.datasets.newsroom.Builder
sürümler :
-
1.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
5.13 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
Veri setini https://summari.es/download/ adresinden indirmelisiniz. Web sayfası kayıt gerektirir. İndirdikten sonra lütfen dev.jsonl, test.jsonl ve train.jsonl dosyalarını manual_dir dizinine koyun.Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Özellik yapısı :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
sıkıştırma | tensör | şamandıra32 | ||
sıkıştırma_bin | Metin | sicim | ||
kapsama | tensör | şamandıra32 | ||
kapsama_bin | Metin | sicim | ||
tarih | Metin | sicim | ||
yoğunluk | tensör | şamandıra32 | ||
yoğunluk_bin | Metin | sicim | ||
özet | Metin | sicim | ||
metin | Metin | sicim | ||
başlık | Metin | sicim | ||
url | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('text', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}