رسانه_جمع

توضیحات :

این مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ شامل 463.6 هزار رونوشت با خلاصه های انتزاعی است که از متن مصاحبه و شرح کلی / موضوع از NPR و CNN جمع آوری شده است.

لطفاً استفاده خود را از این مجموعه داده فقط به هدف تحقیق محدود کنید.

و لطفاً به مقاله ما استناد کنید: MediaSum: مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ برای خلاصه کردن گفتگو

اخلاق

ما فقط از داده‌های رونوشت‌های موجود در دسترس عموم از منابع رسانه‌ای استفاده کرده‌ایم و به دستورالعمل‌های فقط برای هدف تحقیق آن‌ها پایبند هستیم.

از آنجایی که رسانه‌ها و مهمانان ممکن است دیدگاه‌های جانبدارانه داشته باشند، رونوشت‌ها و خلاصه‌ها احتمالاً حاوی آن‌ها هستند. محتوای رونوشت ها و خلاصه ها فقط منعکس کننده دیدگاه رسانه ها و مهمانان است و باید با احتیاط به آنها نگاه کرد.

صفحه اصلی : https://github.com/zcgzcgzcg1/MediaSum
کد منبع : tfds.datasets.media_sum.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
اندازه دانلود : Unknown size
حجم مجموعه داده : 4.11 GiB
دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض به ~/tensorflow_datasets/downloads/manual/ ):
manual_dir باید حاوی فایل های زیر باشد:
- news_dialogue.json
- train_val_test_split.json

فایل ها را می توان از صفحه GitHub مجموعه داده دانلود و استخراج کرد: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	10000
`'train'`	443,596
`'val'`	10000

ساختار ویژگی :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
تاریخ	متن		رشته
شناسه	متن		رشته
برنامه	متن		رشته
بلندگو	دنباله (متن)	(هیچ یک،)	رشته
خلاصه	متن		رشته
آدرس اینترنتی	متن		رشته
utt	دنباله (متن)	(هیچ یک،)	رشته

کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('utt', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

رسانه_جمع با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

اخلاق

رسانه_جمع