- توضیحات :
این مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ شامل 463.6 هزار رونوشت با خلاصه های انتزاعی است که از متن مصاحبه و شرح کلی / موضوع از NPR و CNN جمع آوری شده است.
لطفاً استفاده خود را از این مجموعه داده فقط به هدف تحقیق محدود کنید.
و لطفاً به مقاله ما استناد کنید: MediaSum: مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ برای خلاصه کردن گفتگو
اخلاق
ما فقط از دادههای رونوشتهای موجود در دسترس عموم از منابع رسانهای استفاده کردهایم و به دستورالعملهای فقط برای هدف تحقیق آنها پایبند هستیم.
از آنجایی که رسانهها و مهمانان ممکن است دیدگاههای جانبدارانه داشته باشند، رونوشتها و خلاصهها احتمالاً حاوی آنها هستند. محتوای رونوشت ها و خلاصه ها فقط منعکس کننده دیدگاه رسانه ها و مهمانان است و باید با احتیاط به آنها نگاه کرد.
صفحه اصلی : https://github.com/zcgzcgzcg1/MediaSum
کد منبع :
tfds.datasets.media_sum.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
4.11 GiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض به~/tensorflow_datasets/downloads/manual/
):
manual_dir باید حاوی فایل های زیر باشد:- news_dialogue.json
- train_val_test_split.json
فایل ها را می توان از صفحه GitHub مجموعه داده دانلود و استخراج کرد: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10000 |
'train' | 443,596 |
'val' | 10000 |
- ساختار ویژگی :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
تاریخ | متن | رشته | ||
شناسه | متن | رشته | ||
برنامه | متن | رشته | ||
بلندگو | دنباله (متن) | (هیچ یک،) | رشته | |
خلاصه | متن | رشته | ||
آدرس اینترنتی | متن | رشته | ||
utt | دنباله (متن) | (هیچ یک،) | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('utt', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}