bucc

  • الوصف :

تحديد الجمل المتوازية في النصوص المماثلة. بالنظر إلى جملتين أحاديتين اللغة مقسمتين للجملة ، من المتوقع أن تحدد أنظمة المشاركين أزواج من الجمل التي هي ترجمات لبعضها البعض.

مهمة التعدين BUCC هي مهمة مشتركة في استخراج الجمل المتوازية من مجموعتين أحاديتي اللغة مع مجموعة فرعية منها يفترض أن تكون متوازية ، والتي كانت متاحة منذ عام 2016. لكل زوج لغوي ، توفر المهمة المشتركة مجموعة أحادي اللغة لكل لغة و قائمة خرائط ذهبية تحتوي على أزواج ترجمة حقيقية. هذه الأزواج هي الحقيقة الأساسية. المهمة هي إنشاء قائمة من أزواج الترجمة من مجموعة أحادية اللغة. تتم مقارنة القائمة التي تم إنشاؤها بالحقيقة الأساسية ، ويتم تقييمها من حيث مقياس F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
source_id نص سلسلة
المصدر نص سلسلة
target_id نص سلسلة
target_sentence نص سلسلة
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc / bucc_de (التكوين الافتراضي)

  • حجم التحميل : 29.30 MiB

  • حجم مجموعة البيانات : 3.21 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 9580
'validation' 1038

bucc / bucc_fr

  • حجم التحميل : 21.65 MiB

  • حجم مجموعة البيانات : 2.90 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 9086
'validation' 929

bucc / bucc_zh

  • حجم التحميل : 6.79 MiB

  • حجم مجموعة البيانات : 615.20 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،899
'validation' 257

bucc / bucc_ru

  • حجم التحميل : 39.44 MiB

  • حجم مجموعة البيانات : 6.36 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 14،435
'validation' 2،374