bucc

  • Deskripsi :

Mengidentifikasi kalimat paralel dalam kumpulan yang sebanding. Diberikan dua korpora monolingual yang dipisahkan kalimat, sistem peserta diharapkan dapat mengidentifikasi pasangan kalimat yang merupakan terjemahan satu sama lain.

Tugas penambangan BUCC adalah tugas bersama pada ekstraksi kalimat paralel dari dua korpora monolingual dengan subset dari mereka dianggap paralel, dan itu telah tersedia sejak 2016. Untuk setiap pasangan bahasa, tugas bersama menyediakan korpus monolingual untuk setiap bahasa dan daftar pemetaan emas yang berisi pasangan terjemahan yang sebenarnya. Pasangan ini adalah kebenaran dasar. Tugasnya adalah membuat daftar pasangan terjemahan dari korpora monolingual. Daftar yang dibangun dibandingkan dengan kebenaran dasar, dan dievaluasi dalam ukuran F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
source_id Teks rangkaian
sumber_kalimat Teks rangkaian
target_id Teks rangkaian
target_kalimat Teks rangkaian
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (konfigurasi default)

  • Ukuran unduhan : 29.30 MiB

  • Ukuran dataset : 3.21 MiB

  • Perpecahan :

Membelah Contoh
'test' 9.580
'validation' 1.038

bucc/bucc_fr

  • Ukuran unduhan : 21.65 MiB

  • Ukuran dataset : 2.90 MiB

  • Perpecahan :

Membelah Contoh
'test' 9.086
'validation' 929

bucc/bucc_zh

  • Ukuran unduhan : 6.79 MiB

  • Ukuran dataset : 615.20 KiB

  • Perpecahan :

Membelah Contoh
'test' 1.899
'validation' 257

bucc/bucc_ru

  • Ukuran unduhan : 39.44 MiB

  • Ukuran dataset : 6.36 MiB

  • Perpecahan :

Membelah Contoh
'test' 14.435
'validation' 2.374