- Açıklama :
NEWSROOM, özetleme sistemlerinin eğitimi ve değerlendirilmesi için geniş bir veri kümesidir. 38 büyük yayının haber odalarında yazarlar ve editörler tarafından yazılmış 1,3 milyon makale ve özet içermektedir.
Veri kümesi özellikleri şunları içerir:
- metin: Haber metnini girin.
- özet: Haber için özet.
Ve ek özellikler:
- başlık: haber başlığı.
- url: haberin url'si.
- tarih: makalenin tarihi.
- yoğunluk: çıkarma yoğunluğu.
- kapsam: ekstraktif kapsam.
- sıkıştırma: sıkıştırma oranı.
- yoğunluk_bin: düşük, orta, yüksek.
- coverage_bin: çıkarıcı, soyutlayıcı.
- sıkıştırma_bin: düşük, orta, yüksek.
Bu veri seti istek üzerine indirilebilir. "train.jsonl, dev.jsonl, test.jsonl" dosyasının tüm içeriğini tfds klasörüne çıkartın.
Ek Belgeler : Belgeleri Keşfedin
Anasayfa : https://summari.es
Kaynak kodu :
tfds.datasets.newsroom.Buildersürümler :
-
1.0.0(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown sizeVeri kümesi boyutu :
5.13 GiBManuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dirgerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/):
Veri setini https://summari.es/download/ adresinden indirmelisiniz. Web sayfası kayıt gerektirir. İndirdikten sonra lütfen dev.jsonl, test.jsonl ve train.jsonl dosyalarını manual_dir dizinine koyun.Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
| Bölmek | örnekler |
|---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Özellik yapısı :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Tanım |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| sıkıştırma | tensör | şamandıra32 | ||
| sıkıştırma_bin | Metin | sicim | ||
| kapsama | tensör | şamandıra32 | ||
| kapsama_bin | Metin | sicim | ||
| tarih | Metin | sicim | ||
| yoğunluk | tensör | şamandıra32 | ||
| yoğunluk_bin | Metin | sicim | ||
| özet | Metin | sicim | ||
| metin | Metin | sicim | ||
| başlık | Metin | sicim | ||
| url | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_superviseddoc ):('text', 'summary')Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}