- توضیحات :
مجموعه داده های خلاصه سازی شدید (XSum).
دو ویژگی وجود دارد: - سند: ورودی مقاله خبری. - خلاصه: یک جمله خلاصه مقاله.
این داده ها باید به صورت دستی دانلود و استخراج شوند همانطور که در https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md توضیح داده شده است. پوشه «xsum-extracts-from-downloads» باید به صورت فشرده شود 'xsum-extracts-from-downloads.tar.gz' و در پوشه بارگیری دستی قرار دهید.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
کد منبع :
tfds.summarization.Xsum
نسخه ها :
-
1.0.0
: مجموعه داده بدون تمیز کردن. -
1.1.0
(پیش فرض): محتویات وب را حذف می کند.
-
حجم دانلود :
2.59 MiB
حجم مجموعه داده :
512.03 MiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض به~/tensorflow_datasets/downloads/manual/
):
دستورالعملهای دانلود دقیق (که نیاز به اجرای یک اسکریپت سفارشی دارد) اینجا هستند: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts Afterwards لطفا فایل xsum-extracts-from-downloads.tar.gz را در manual_dir قرار دهید.ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- ساختار ویژگی :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
سند | متن | رشته | ||
خلاصه | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('document', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}