- توضیحات :
WikiAuto مجموعه ای از جملات تراز شده را از ویکی پدیای انگلیسی و ویکی پدیای انگلیسی ساده به عنوان منبعی برای آموزش سیستم های ساده سازی جمله ارائه می دهد. نویسندگان ابتدا مجموعهای از همترازیهای دستی بین جملات را در زیرمجموعهای از ویکیپدیای ساده انگلیسی و نسخههای متناظر آنها در ویکیپدیای انگلیسی (که با پیکربندی manual
مطابقت دارد) جمعآوری کردند، سپس یک سیستم CRF عصبی را برای پیشبینی این همترازیها آموزش دادند. سپس مدل آموزشدیده شده برای سایر مقالات در ویکیپدیای ساده انگلیسی با همتای انگلیسی برای ایجاد مجموعه بزرگتری از جملات تراز شده (مرتبط با تنظیمات auto
، auto_acl
، auto_full_no_split
، و auto_full_with_split
در اینجا) اعمال شد.
صفحه اصلی : https://github.com/chaojiang06/wiki-auto
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (پیکربندی پیشفرض)
توضیحات پیکربندی : مجموعهای از 10 هزار جفت جملات ویکیپدیا که توسط کارگران جمعی تراز شدهاند.
حجم دانلود :
53.47 MiB
حجم مجموعه داده :
76.87 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- ساختار ویژگی :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
امتیاز GLEU | تانسور | float64 | ||
alignment_label | ClassLabel | int64 | ||
جمله_عادی | متن | رشته | ||
normal_sentence_id | متن | رشته | ||
جمله ساده | متن | رشته | ||
ساده_جمله_id | متن | رشته |
- مثالها ( tfds.as_dataframe ):
wiki_auto/auto_acl
شرح پیکربندی : جفتهای جمله برای آموزش سیستم ACL2020 تراز شدهاند.
حجم دانلود :
112.60 MiB
حجم مجموعه داده :
138.83 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که
shuffle_files=False
(کامل)تقسیم ها :
شکاف | مثال ها |
---|---|
'full' | 488,332 |
- ساختار ویژگی :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
جمله_عادی | متن | رشته | ||
جمله ساده | متن | رشته |
- مثالها ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
توضیحات پیکربندی : همه جفتهای جملات بهطور خودکار بدون تقسیم جملهها تراز شدهاند.
حجم دانلود :
135.02 MiB
حجم مجموعه داده :
166.78 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که
shuffle_files=False
(کامل)تقسیم ها :
شکاف | مثال ها |
---|---|
'full' | 591,994 |
- ساختار ویژگی :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
جمله_عادی | متن | رشته | ||
جمله ساده | متن | رشته |
- مثالها ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
توضیحات پیکربندی : همه جفتهای جملاتی که بهطور خودکار با تقسیم جملهها تراز شدهاند.
حجم دانلود :
115.09 MiB
حجم مجموعه داده :
141.20 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که
shuffle_files=False
(کامل)تقسیم ها :
شکاف | مثال ها |
---|---|
'full' | 483801 |
- ساختار ویژگی :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
جمله_عادی | متن | رشته | ||
جمله ساده | متن | رشته |
- مثالها ( tfds.as_dataframe ):
wiki_auto/auto
توضیحات پیکربندی : مجموعه بزرگی از جفتهای جملاتی که بهطور خودکار تراز شدهاند.
حجم دانلود :
2.01 GiB
حجم مجموعه داده :
1.76 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- ساختار ویژگی :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
example_id | متن | رشته | ||
طبیعی | FeaturesDict | |||
محتوای_مقاله_عادی/عادی | توالی | |||
normal/normal_article_content/normal_sentence | متن | رشته | ||
normal/normal_article_content/normal_sentence_id | متن | رشته | ||
normal/normal_article_id | تانسور | int32 | ||
عنوان_مقاله_عادی/عادی | متن | رشته | ||
normal/normal_article_url | متن | رشته | ||
پاراگراف_تراز | توالی | |||
paragraph_alignment/normal_paragraph_id | متن | رشته | ||
paragraph_alignment/simple_paragraph_id | متن | رشته | ||
جمله_تراز کردن | توالی | |||
جمله_همترازی/عنوان_جمله_عادی | متن | رشته | ||
جمله_تراز/شخص_جمله_ساده | متن | رشته | ||
ساده | FeaturesDict | |||
ساده/مقاله_ساده | توالی | |||
simple/simple_article_content/simple_sentence | متن | رشته | ||
simple/simple_article_content/simple_sentence_id | متن | رشته | ||
simple/simple_article_id | تانسور | int32 | ||
عنوان ساده/ساده_مقاله | متن | رشته | ||
simple/simple_article_url | متن | رشته |
- مثالها ( tfds.as_dataframe ):