wikihow

  • תיאור :

WikiHow הוא מערך נתונים חדש בקנה מידה גדול המשתמש במאגר הידע המקוון של WikiHow ( http://www.wikihow.com/ ).

ישנן שתי תכונות: - טקסט: wikihow עונה לטקסטים. - כותרת: שורות מודגשות כסיכום.

קיימות שתי גרסאות נפרדות: - כולן: מורכבות משרשור של כל הפסקאות כמאמרים והשורות המודגשות כסיכומי ההפניה. - sep: מורכב מכל פסקה וסיכום שלה.

הורד את "wikihowAll.csv" ו-"wikihowSep.csv" מ- https://github.com/mahnazkoupaee/WikiHow-Dataset והנח אותם בתיקייה הידנית https://www.tensorflow.org/datasets/api_docs/python/tfds/ הורדה/DownloadConfig פיצול רכבת/אימות/בדיקה מסופקים על ידי המחברים. עיבוד מוקדם מוחל כדי להסיר מאמרים קצרים (אורך מופשט < 0.75 אורך מאמר) ולנקות פסיקים נוספים.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (תצורת ברירת מחדל)

  • תיאור תצורה : השתמש בשרשור של כל הפסקאות כמאמרים ובשורות המודגשות כתקצירי הפניות

  • גודל מערך נתונים : 531.56 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 5,577
'train' 157,252
'validation' 5,599
  • מבנה תכונה :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
כּוֹתֶרֶת טֶקסט חוּט
טֶקסט טֶקסט חוּט
כותרת טֶקסט חוּט

wikihow/sep

  • תיאור תצורה : השתמש בכל פסקה ובסיכום שלה.

  • גודל מערך נתונים : 1.07 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • מבנה תכונה :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
כּוֹתֶרֶת טֶקסט חוּט
סקירה כללית טֶקסט חוּט
sectionLabel טֶקסט חוּט
טֶקסט טֶקסט חוּט
כותרת טֶקסט חוּט