- توضیحات :
ASSET مجموعه داده ای برای ارزیابی سیستم های ساده سازی جمله با تبدیل های چندگانه بازنویسی است، همانطور که در "ASSET: مجموعه داده ای برای تنظیم و ارزیابی مدل های ساده سازی جمله با تبدیل های چندگانه بازنویسی" توضیح داده شده است. این مجموعه از 2000 اعتبارسنجی و 359 جمله اصلی آزمایشی تشکیل شده است که هر کدام 10 بار توسط حاشیه نویسان مختلف ساده شده اند. این مجموعه همچنین حاوی قضاوت های انسانی در مورد حفظ معنا، روانی و سادگی برای خروجی های چندین سیستم ساده سازی متن خودکار است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/facebookresearch/asset
کد منبع :
tfds.datasets.asset.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
3.47 MiB
ذخیره خودکار ( اسناد ): بله
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
دارایی/ساده سازی (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه ای از جملات اصلی که با 10 ساده سازی ممکن برای هر کدام تراز شده اند.
حجم مجموعه داده :
2.64 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 359 |
'validation' | 2000 |
- ساختار ویژگی :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
اصلی | متن | رشته | ||
ساده سازی ها | دنباله (متن) | (هیچ یک،) | رشته |
- مثالها ( tfds.as_dataframe ):
دارایی / رتبه بندی
توضیحات پیکربندی : رتبهبندی انسانی سادهسازی متن بهطور خودکار تولید شده است.
حجم مجموعه داده :
1.44 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'full' | 4500 |
- ساختار ویژگی :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
جنبه | ClassLabel | int64 | ||
اصلی | متن | رشته | ||
شناسه_جمله_اصلی | تانسور | int32 | ||
رتبه بندی | تانسور | int32 | ||
ساده سازی | متن | رشته | ||
worker_id | تانسور | int32 |
- مثالها ( tfds.as_dataframe ):