- תיאור :
NEWSROOM הוא מערך נתונים גדול להדרכה והערכה של מערכות סיכום. הוא מכיל 1.3 מיליון מאמרים וסיכומים שנכתבו על ידי סופרים ועורכים בחדרי החדשות של 38 פרסומים מרכזיים.
תכונות מערך הנתונים כוללות:
- טקסט: הזנת טקסט חדשותי.
- תקציר: סיכום לחדשות.
ותכונות נוספות:
- כותרת: כותרת חדשות.
- url: כתובת האתר של החדשות.
- תאריך: תאריך המאמר.
- צפיפות: צפיפות מיצוי.
- כיסוי: כיסוי מיצוי.
- דחיסה: יחס דחיסה.
- density_bin: נמוך, בינוני, גבוה.
- coverage_bin: מחלץ, מופשט.
- compression_bin: נמוך, בינוני, גבוה.
ניתן להוריד מערך נתונים זה לפי בקשות. פתח את כל התוכן "train.jsonl, dev.jsonl, test.jsonl" לתיקיית tfds.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://summari.es
קוד מקור :
tfds.datasets.newsroom.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
5.13 GiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
עליך להוריד את מערך הנתונים מ- https://summari.es/download/ דף האינטרנט דורש הרשמה. לאחר ההורדה, נא לשים את קבצי dev.jsonl, test.jsonl ו-train.jsonl ב-manual_dir.שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- מבנה תכונה :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
דְחִיסָה | מוֹתֵחַ | לצוף32 | ||
compression_bin | טֶקסט | חוּט | ||
כיסוי | מוֹתֵחַ | לצוף32 | ||
coverage_bin | טֶקסט | חוּט | ||
תַאֲרִיך | טֶקסט | חוּט | ||
צְפִיפוּת | מוֹתֵחַ | לצוף32 | ||
density_bin | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט | ||
טֶקסט | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט | ||
כתובת אתר | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}