- תיאור :
WikiHow הוא מערך נתונים חדש בקנה מידה גדול המשתמש במאגר הידע המקוון של WikiHow ( http://www.wikihow.com/ ).
ישנן שתי תכונות: - טקסט: wikihow עונה לטקסטים. - כותרת: שורות מודגשות כסיכום.
קיימות שתי גרסאות נפרדות: - כולן: מורכבות משרשור של כל הפסקאות כמאמרים והשורות המודגשות כסיכומי ההפניה. - sep: מורכב מכל פסקה וסיכום שלה.
הורד את "wikihowAll.csv" ו-"wikihowSep.csv" מ- https://github.com/mahnazkoupaee/WikiHow-Dataset והנח אותם בתיקייה הידנית https://www.tensorflow.org/datasets/api_docs/python/tfds/ הורדה/DownloadConfig פיצול רכבת/אימות/בדיקה מסופקים על ידי המחברים. עיבוד מוקדם מוחל כדי להסיר מאמרים קצרים (אורך מופשט < 0.75 אורך מאמר) ולנקות פסיקים נוספים.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.summarization.Wikihow
גרסאות :
-
1.2.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
5.21 MiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
ניתן למצוא קישורים לקבצים בכתובת https://github.com/mahnazkoupaee/WikiHow-Dataset אנא הורד גם את wikihowAll.csv וגם את wikihowSep.csv.שמירה אוטומטית במטמון ( תיעוד ): לא
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'headline')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (תצורת ברירת מחדל)
תיאור תצורה : השתמש בשרשור של כל הפסקאות כמאמרים ובשורות המודגשות כתקצירי הפניות
גודל מערך נתונים :
531.56 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- מבנה תכונה :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
כּוֹתֶרֶת | טֶקסט | חוּט | ||
טֶקסט | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
wikihow/sep
תיאור תצורה : השתמש בכל פסקה ובסיכום שלה.
גודל מערך נתונים :
1.07 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- מבנה תכונה :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
כּוֹתֶרֶת | טֶקסט | חוּט | ||
סקירה כללית | טֶקסט | חוּט | ||
sectionLabel | טֶקסט | חוּט | ||
טֶקסט | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):