wikihow

  • Deskripsi :

WikiHow adalah kumpulan data skala besar baru yang menggunakan basis pengetahuan online WikiHow ( http://www.wikihow.com/ ).

Ada dua fitur: - teks: wikihow menjawab teks. - headline: garis tebal sebagai ringkasan.

Ada dua versi terpisah: - semua: terdiri dari rangkaian semua paragraf sebagai artikel dan garis tebal sebagai ringkasan referensi. - sep: terdiri dari setiap paragraf dan ringkasannya.

Unduh "wikihowAll.csv" dan "wikihowSep.csv" dari https://github.com/mahnazkoupaee/WikiHow-Dataset dan letakkan di folder manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validasi/test split disediakan oleh penulis. Preprocessing diterapkan untuk menghapus artikel pendek (panjang abstrak < 0,75 panjang artikel) dan membersihkan koma ekstra.

@misc{koupaee2018wikihow,
    title
={WikiHow: A Large Scale Text Summarization Dataset},
    author
={Mahnaz Koupaee and William Yang Wang},
    year
={2018},
    eprint
={1810.09305},
    archivePrefix
={arXiv},
    primaryClass
={cs.CL}
}

wikihow/all (konfigurasi default)

  • Deskripsi konfigurasi : Gunakan rangkaian semua paragraf sebagai artikel dan garis tebal sebagai ringkasan referensi

  • Ukuran dataset : 531.56 MiB

  • Perpecahan :

Membelah Contoh
'test' 5.577
'train' 157.252
'validation' 5.599
  • Struktur fitur :
FeaturesDict({
   
'headline': Text(shape=(), dtype=string),
   
'text': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
judul Teks rangkaian
teks Teks rangkaian
judul Teks rangkaian

wikihow/sep

  • Deskripsi konfigurasi : gunakan setiap paragraf dan ringkasannya.

  • Ukuran dataset : 1.07 GiB

  • Perpecahan :

Membelah Contoh
'test' 37.800
'train' 1.060.732
'validation' 37.932
  • Struktur fitur :
FeaturesDict({
   
'headline': Text(shape=(), dtype=string),
   
'overview': Text(shape=(), dtype=string),
   
'sectionLabel': Text(shape=(), dtype=string),
   
'text': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
judul Teks rangkaian
gambaran Teks rangkaian
labelbagian Teks rangkaian
teks Teks rangkaian
judul Teks rangkaian