- תיאור :
זיהוי משפטים מקבילים בקורפוסים דומים. בהינתן שני קורפוסים חד לשוניים מפוצלים במשפטים, מערכות משתתפות צפויות לזהות זוגות משפטים שהם תרגומים אחד של השני.
משימת הכרייה של BUCC היא משימה משותפת על חילוץ משפטים מקבילים משני קורפוסים חד-לשוניים, כאשר תת-קבוצתם הנחשבת מקבילה, והיא זמינה מאז 2016. עבור כל צמד שפות, המשימה המשותפת מספקת קורפוס חד-לשוני עבור כל שפה ושפה. רשימת מיפוי זהב המכילה צמדי תרגום אמיתיים. הזוגות האלה הם האמת הבסיסית. המשימה היא לבנות רשימה של צמדי תרגום מהקורפוס החד-לשוני. הרשימה הבנויה מושווה לאמת הבסיס, ומוערכת במונחים של מדד F1.
דף הבית : https://comparable.limsi.fr/bucc2018/
קוד מקור :
tfds.datasets.bucc.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
שמור אוטומטי במטמון ( תיעוד ): כן
מבנה תכונה :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מזהה_מקור | טֶקסט | חוּט | ||
מקור_משפט | טֶקסט | חוּט | ||
target_id | טֶקסט | חוּט | ||
משפט_מטרה | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (תצורת ברירת המחדל)
גודל הורדה :
29.30 MiB
גודל ערכת נתונים :
3.21 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,580 |
'validation' | 1,038 |
- דוגמאות ( tfds.as_dataframe ):
bucc/bucc_fr
גודל הורדה :
21.65 MiB
גודל ערכת נתונים :
2.90 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,086 |
'validation' | 929 |
- דוגמאות ( tfds.as_dataframe ):
bucc/bucc_zh
גודל הורדה :
6.79 MiB
גודל ערכת נתונים:
615.20 KiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,899 |
'validation' | 257 |
- דוגמאות ( tfds.as_dataframe ):
bucc/bucc_ru
גודל הורדה :
39.44 MiB
גודל מערך נתונים :
6.36 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- דוגמאות ( tfds.as_dataframe ):