bucc

  • תיאור :

זיהוי משפטים מקבילים בקורפוסים דומים. בהינתן שני קורפוסים חד לשוניים מפוצלים במשפטים, מערכות משתתפות צפויות לזהות זוגות משפטים שהם תרגומים אחד של השני.

משימת הכרייה של BUCC היא משימה משותפת על חילוץ משפטים מקבילים משני קורפוסים חד-לשוניים, כאשר תת-קבוצתם הנחשבת מקבילה, והיא זמינה מאז 2016. עבור כל צמד שפות, המשימה המשותפת מספקת קורפוס חד-לשוני עבור כל שפה ושפה. רשימת מיפוי זהב המכילה צמדי תרגום אמיתיים. הזוגות האלה הם האמת הבסיסית. המשימה היא לבנות רשימה של צמדי תרגום מהקורפוס החד-לשוני. הרשימה הבנויה מושווה לאמת הבסיס, ומוערכת במונחים של מדד F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מזהה_מקור טֶקסט חוּט
מקור_משפט טֶקסט חוּט
target_id טֶקסט חוּט
משפט_מטרה טֶקסט חוּט
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (תצורת ברירת המחדל)

  • גודל הורדה : 29.30 MiB

  • גודל ערכת נתונים : 3.21 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9,580
'validation' 1,038

bucc/bucc_fr

  • גודל הורדה : 21.65 MiB

  • גודל ערכת נתונים : 2.90 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9,086
'validation' 929

bucc/bucc_zh

  • גודל הורדה : 6.79 MiB

  • גודל ערכת נתונים: 615.20 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,899
'validation' 257

bucc/bucc_ru

  • גודל הורדה : 39.44 MiB

  • גודל מערך נתונים : 6.36 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 14,435
'validation' 2,374