رسانه_جمع

  • توضیحات :

این مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ شامل 463.6 هزار رونوشت با خلاصه های انتزاعی است که از متن مصاحبه و شرح کلی / موضوع از NPR و CNN جمع آوری شده است.

لطفاً استفاده خود را از این مجموعه داده فقط به هدف تحقیق محدود کنید.

و لطفاً به مقاله ما استناد کنید: MediaSum: مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ برای خلاصه کردن گفتگو

اخلاق

ما فقط از داده‌های رونوشت‌های موجود در دسترس عموم از منابع رسانه‌ای استفاده کرده‌ایم و به دستورالعمل‌های فقط برای هدف تحقیق آن‌ها پایبند هستیم.

از آنجایی که رسانه‌ها و مهمانان ممکن است دیدگاه‌های جانبدارانه داشته باشند، رونوشت‌ها و خلاصه‌ها احتمالاً حاوی آن‌ها هستند. محتوای رونوشت ها و خلاصه ها فقط منعکس کننده دیدگاه رسانه ها و مهمانان است و باید با احتیاط به آنها نگاه کرد.

  • صفحه اصلی : https://github.com/zcgzcgzcg1/MediaSum

  • کد منبع : tfds.datasets.media_sum.Builder

  • نسخه ها :

    • 1.0.0 (پیش فرض): انتشار اولیه.
  • اندازه دانلود : Unknown size

  • حجم مجموعه داده : 4.11 GiB

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض به ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir باید حاوی فایل های زیر باشد:

    • news_dialogue.json
    • train_val_test_split.json

فایل ها را می توان از صفحه GitHub مجموعه داده دانلود و استخراج کرد: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 10000
'train' 443,596
'val' 10000
  • ساختار ویژگی :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
تاریخ متن رشته
شناسه متن رشته
برنامه متن رشته
بلندگو دنباله (متن) (هیچ یک،) رشته
خلاصه متن رشته
آدرس اینترنتی متن رشته
utt دنباله (متن) (هیچ یک،) رشته
  • نقل قول :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}