- Açıklama :
WikiHow, çevrimiçi WikiHow ( http://www.wikihow.com/ ) bilgi tabanını kullanan yeni bir büyük ölçekli veri kümesidir.
İki özellik vardır: - metin: wikihow metinleri yanıtlar. - başlık: özet olarak kalın satırlar.
İki ayrı versiyon vardır: - tümü: makaleler olarak tüm paragrafların birleştirilmesinden ve referans özetleri olarak kalın satırlardan oluşur. - sep: her paragraftan ve özetinden oluşur.
"wikihowAll.csv" ve "wikihowSep.csv"yi https://github.com/mahnazkoupaee/WikiHow-Dataset adresinden indirin ve https://www.tensorflow.org/datasets/api_docs/python/tfds/ kılavuz klasörüne yerleştirin. download/DownloadConfig Tren/doğrulama/test bölmeleri yazarlar tarafından sağlanmaktadır. Kısa makaleleri (soyut uzunluğu < 0,75 makale uzunluğu) kaldırmak ve fazladan virgülleri temizlemek için ön işleme uygulanır.
Ana Sayfa : https://github.com/mahnazkoupaee/WikiHow-Dataset
Kaynak kodu :
tfds.summarization.Wikihow
sürümler :
-
1.2.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
5.21 MiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
Dosyalara bağlantılar https://github.com/mahnazkoupaee/WikiHow-Dataset adresinde bulunabilir. Lütfen hem wikihowAll.csv'yi hem de wikihowSep.csv'yi indirin.Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Denetimli anahtarlar (Bkz
as_supervised
doc ):('text', 'headline')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (varsayılan yapılandırma)
Yapılandırma açıklaması : Makaleler olarak tüm paragrafların birleşimini ve referans özetleri olarak kalın satırları kullanın
Veri kümesi boyutu :
531.56 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 5.577 |
'train' | 157.252 |
'validation' | 5.599 |
- Özellik yapısı :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
başlık | Metin | sicim | ||
Metin | Metin | sicim | ||
Başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
wikihow/eylül
Yapılandırma açıklaması : her paragrafı ve özetini kullanın.
Veri kümesi boyutu :
1.07 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37.932 |
- Özellik yapısı :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
başlık | Metin | sicim | ||
genel bakış | Metin | sicim | ||
bölüm etiketi | Metin | sicim | ||
Metin | Metin | sicim | ||
Başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):