- תיאור :
ערכת נתונים של סיכום קיצוני (XSum).
ישנן שתי תכונות: - מסמך: קלט מאמר חדשותי. - סיכום: סיכום משפט אחד של המאמר.
יש להוריד ולחלץ את הנתונים האלה באופן ידני כמתואר ב- https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md יש לדחוס את התיקיה 'xsum-extracts-from-downloads' בתור 'xsum-extracts-from-downloads.tar.gz' והכנס לתיקיה שהורדה ידנית.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
קוד מקור :
tfds.summarization.Xsum
גרסאות :
-
1.0.0
: מערך נתונים ללא ניקוי. -
1.1.0
(ברירת מחדל): מסיר תוכן אינטרנט.
-
גודל הורדה :
2.59 MiB
גודל ערכת נתונים:
512.03 MiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
הוראות הורדה מפורטות (המחייבות הפעלת סקריפט מותאם אישית) נמצאות כאן: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts לאחר מכן , אנא הכנס את הקובץ xsum-extracts-from-downloads.tar.gz במדריך_מדריך.שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- מבנה תכונה :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מסמך | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('document', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}