دارایی

توضیحات :

ASSET مجموعه داده ای برای ارزیابی سیستم های ساده سازی جمله با تبدیل های چندگانه بازنویسی است، همانطور که در "ASSET: مجموعه داده ای برای تنظیم و ارزیابی مدل های ساده سازی جمله با تبدیل های چندگانه بازنویسی" توضیح داده شده است. این مجموعه از 2000 اعتبارسنجی و 359 جمله اصلی آزمایشی تشکیل شده است که هر کدام 10 بار توسط حاشیه نویسان مختلف ساده شده اند. این مجموعه همچنین حاوی قضاوت های انسانی در مورد حفظ معنا، روانی و سادگی برای خروجی های چندین سیستم ساده سازی متن خودکار است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/facebookresearch/asset
کد منبع : tfds.datasets.asset.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
حجم دانلود : 3.47 MiB
ذخیره خودکار ( اسناد ): بله
کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

دارایی/ساده سازی (پیکربندی پیش فرض)

توضیحات پیکربندی : مجموعه ای از جملات اصلی که با 10 ساده سازی ممکن برای هر کدام تراز شده اند.
حجم مجموعه داده : 2.64 MiB
تقسیم ها :

شکاف	مثال ها
`'test'`	359
`'validation'`	2000

ساختار ویژگی :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
اصلی	متن		رشته
ساده سازی ها	دنباله (متن)	(هیچ یک،)	رشته

مثال‌ها ( tfds.as_dataframe ):

دارایی / رتبه بندی

توضیحات پیکربندی : رتبه‌بندی انسانی ساده‌سازی متن به‌طور خودکار تولید شده است.
حجم مجموعه داده : 1.44 MiB
تقسیم ها :

شکاف	مثال ها
`'full'`	4500

ساختار ویژگی :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
جنبه	ClassLabel	int64
اصلی	متن	رشته
شناسه_جمله_اصلی	تانسور	int32
رتبه بندی	تانسور	int32
ساده سازی	متن	رشته
worker_id	تانسور	int32

مثال‌ها ( tfds.as_dataframe ):

دارایی با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

دارایی/ساده سازی (پیکربندی پیش فرض)

دارایی / رتبه بندی

دارایی