- תיאור :
מערך הראיונות במדיה בקנה מידה גדול זה מכיל 463.6K תמלילים עם סיכומים מופשטים, שנאספו מתמלולי ראיונות ותיאורי סקירה/נושאים מ-NPR ו-CNN.
אנא הגבל את השימוש שלך במערך נתונים זה למטרות מחקר בלבד.
ובבקשה לצטט את המאמר שלנו: MediaSum: מערך נתונים של ראיון מדיה בקנה מידה גדול לסיכום דיאלוג
אֶתִיקָה
השתמשנו רק בנתוני התמלילים הזמינים לציבור ממקורות התקשורת ודבקנו בהנחיות שלהם למטרות מחקר בלבד.
מכיוון שלתקשורת ולאורחים עשויות להיות דעות מוטות, סביר להניח שהתמלילים והסיכומים יכללו אותן. תוכן התמלילים והסיכומים משקפים רק את דעות התקשורת והאורחים, ויש לראות אותם בשיקול דעת.
דף הבית : https://github.com/zcgzcgzcg1/MediaSum
קוד מקור :
tfds.datasets.media_sum.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
4.11 GiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
manual_dir צריך להכיל את הקבצים:- news_dialogue.json
- train_val_test_split.json
ניתן להוריד ולחלץ את הקבצים מדף GitHub של מערך הנתונים: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- מבנה תכונה :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תַאֲרִיך | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תכנית | טֶקסט | חוּט | ||
רַמקוֹל | רצף (טקסט) | (אף אחד,) | חוּט | |
סיכום | טֶקסט | חוּט | ||
כתובת אתר | טֶקסט | חוּט | ||
utt | רצף (טקסט) | (אף אחד,) | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('utt', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}