media_sum

  • תיאור :

מערך הראיונות במדיה בקנה מידה גדול זה מכיל 463.6K תמלילים עם סיכומים מופשטים, שנאספו מתמלולי ראיונות ותיאורי סקירה/נושאים מ-NPR ו-CNN.

אנא הגבל את השימוש שלך במערך נתונים זה למטרות מחקר בלבד.

ובבקשה לצטט את המאמר שלנו: MediaSum: מערך נתונים של ראיון מדיה בקנה מידה גדול לסיכום דיאלוג

אֶתִיקָה

השתמשנו רק בנתוני התמלילים הזמינים לציבור ממקורות התקשורת ודבקנו בהנחיות שלהם למטרות מחקר בלבד.

מכיוון שלתקשורת ולאורחים עשויות להיות דעות מוטות, סביר להניח שהתמלילים והסיכומים יכללו אותן. תוכן התמלילים והסיכומים משקפים רק את דעות התקשורת והאורחים, ויש לראות אותם בשיקול דעת.

  • דף הבית : https://github.com/zcgzcgzcg1/MediaSum

  • קוד מקור : tfds.datasets.media_sum.Builder

  • גרסאות :

    • 1.0.0 (ברירת מחדל): שחרור ראשוני.
  • גודל הורדה : Unknown size

  • גודל מערך נתונים : 4.11 GiB

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir צריך להכיל את הקבצים:

    • news_dialogue.json
    • train_val_test_split.json

ניתן להוריד ולחלץ את הקבצים מדף GitHub של מערך הנתונים: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,000
'train' 443,596
'val' 10,000
  • מבנה תכונה :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תַאֲרִיך טֶקסט חוּט
תְעוּדַת זֶהוּת טֶקסט חוּט
תכנית טֶקסט חוּט
רַמקוֹל רצף (טקסט) (אף אחד,) חוּט
סיכום טֶקסט חוּט
כתובת אתר טֶקסט חוּט
utt רצף (טקסט) (אף אחד,) חוּט
  • ציטוט :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}