חדר חדשות

  • תיאור :

NEWSROOM הוא מערך נתונים גדול להדרכה והערכה של מערכות סיכום. הוא מכיל 1.3 מיליון מאמרים וסיכומים שנכתבו על ידי סופרים ועורכים בחדרי החדשות של 38 פרסומים מרכזיים.

תכונות מערך הנתונים כוללות:

  • טקסט: הזנת טקסט חדשותי.
  • תקציר: סיכום לחדשות.

ותכונות נוספות:

  • כותרת: כותרת חדשות.
  • url: כתובת האתר של החדשות.
  • תאריך: תאריך המאמר.
  • צפיפות: צפיפות מיצוי.
  • כיסוי: כיסוי מיצוי.
  • דחיסה: יחס דחיסה.
  • density_bin: נמוך, בינוני, גבוה.
  • coverage_bin: מחלץ, מופשט.
  • compression_bin: נמוך, בינוני, גבוה.

ניתן להוריד מערך נתונים זה לפי בקשות. פתח את כל התוכן "train.jsonl, dev.jsonl, test.jsonl" לתיקיית tfds.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://summari.es

  • קוד מקור : tfds.datasets.newsroom.Builder

  • גרסאות :

    • 1.0.0 (ברירת מחדל): אין הערות שחרור.
  • גודל הורדה : Unknown size

  • גודל מערך נתונים : 5.13 GiB

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    עליך להוריד את מערך הנתונים מ- https://summari.es/download/ דף האינטרנט דורש הרשמה. לאחר ההורדה, נא לשים את קבצי dev.jsonl, test.jsonl ו-train.jsonl ב-manual_dir.

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 108,862
'train' 995,041
'validation' 108,837
  • מבנה תכונה :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
דְחִיסָה מוֹתֵחַ לצוף32
compression_bin טֶקסט חוּט
כיסוי מוֹתֵחַ לצוף32
coverage_bin טֶקסט חוּט
תַאֲרִיך טֶקסט חוּט
צְפִיפוּת מוֹתֵחַ לצוף32
density_bin טֶקסט חוּט
סיכום טֶקסט חוּט
טֶקסט טֶקסט חוּט
כותרת טֶקסט חוּט
כתובת אתר טֶקסט חוּט
  • ציטוט :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}