media_sum

תיאור :

מערך הראיונות במדיה בקנה מידה גדול זה מכיל 463.6K תמלילים עם סיכומים מופשטים, שנאספו מתמלולי ראיונות ותיאורי סקירה/נושאים מ-NPR ו-CNN.

אנא הגבל את השימוש שלך במערך נתונים זה למטרות מחקר בלבד.

ובבקשה לצטט את המאמר שלנו: MediaSum: מערך נתונים של ראיון מדיה בקנה מידה גדול לסיכום דיאלוג

אֶתִיקָה

השתמשנו רק בנתוני התמלילים הזמינים לציבור ממקורות התקשורת ודבקנו בהנחיות שלהם למטרות מחקר בלבד.

מכיוון שלתקשורת ולאורחים עשויות להיות דעות מוטות, סביר להניח שהתמלילים והסיכומים יכללו אותן. תוכן התמלילים והסיכומים משקפים רק את דעות התקשורת והאורחים, ויש לראות אותם בשיקול דעת.

דף הבית : https://github.com/zcgzcgzcg1/MediaSum
קוד מקור : tfds.datasets.media_sum.Builder
גרסאות :
- 1.0.0 (ברירת מחדל): שחרור ראשוני.
גודל הורדה : Unknown size
גודל מערך נתונים : 4.11 GiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
manual_dir צריך להכיל את הקבצים:
- news_dialogue.json
- train_val_test_split.json

ניתן להוריד ולחלץ את הקבצים מדף GitHub של מערך הנתונים: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	10,000
`'train'`	443,596
`'val'`	10,000

מבנה תכונה :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

תיעוד תכונה :

תכונה	מעמד	צוּרָה	Dtype
	FeaturesDict
תַאֲרִיך	טֶקסט		חוּט
תְעוּדַת זֶהוּת	טֶקסט		חוּט
תכנית	טֶקסט		חוּט
רַמקוֹל	רצף (טקסט)	(אף אחד,)	חוּט
סיכום	טֶקסט		חוּט
כתובת אתר	טֶקסט		חוּט
utt	רצף (טקסט)	(אף אחד,)	חוּט

מפתחות בפיקוח (ראה as_supervised doc ): ('utt', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):

ציטוט :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

אֶתִיקָה

media_sum