- توضیحات :
شناسایی جملات موازی در مجموعه های قابل مقایسه با توجه به دو مجموعه تک زبانه تقسیم جمله، انتظار می رود سیستم های شرکت کننده جفت جملاتی را که ترجمه یکدیگر هستند شناسایی کنند.
وظیفه استخراج BUCC یک کار مشترک در استخراج جملات موازی از دو پیکره تک زبانه است که زیرمجموعه ای از آنها موازی فرض می شود و از سال 2016 در دسترس بوده است. برای هر جفت زبان، وظیفه مشترک یک پیکره تک زبانه برای هر زبان و یک لیست نقشه برداری طلایی حاوی جفت های ترجمه واقعی. این جفت ها حقیقت زمین هستند. کار این است که فهرستی از جفتهای ترجمه را از پیکرههای تک زبانه بسازیم. لیست ساخته شده با حقیقت زمین مقایسه شده و بر حسب اندازه گیری F1 ارزیابی می شود.
صفحه اصلی : https://comparable.limsi.fr/bucc2018/
کد منبع :
tfds.datasets.bucc.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
ذخیره خودکار ( اسناد ): بله
ساختار ویژگی :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
source_id | متن | رشته | ||
منبع_جمله | متن | رشته | ||
target_id | متن | رشته | ||
هدف_جمله | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (پیکربندی پیشفرض)
حجم دانلود :
29.30 MiB
حجم مجموعه داده :
3.21 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9,580 |
'validation' | 1038 |
- مثالها ( tfds.as_dataframe ):
bucc/bucc_fr
حجم دانلود :
21.65 MiB
حجم مجموعه داده :
2.90 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9,086 |
'validation' | 929 |
- مثالها ( tfds.as_dataframe ):
bucc/bucc_zh
حجم دانلود :
6.79 MiB
حجم مجموعه داده :
615.20 KiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,899 |
'validation' | 257 |
- مثالها ( tfds.as_dataframe ):
bucc/bucc_ru
حجم دانلود :
39.44 MiB
حجم مجموعه داده :
6.36 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- مثالها ( tfds.as_dataframe ):