bucc

Deskripsi :

Mengidentifikasi kalimat paralel dalam kumpulan yang sebanding. Diberikan dua korpora monolingual yang dipisahkan kalimat, sistem peserta diharapkan dapat mengidentifikasi pasangan kalimat yang merupakan terjemahan satu sama lain.

Tugas penambangan BUCC adalah tugas bersama pada ekstraksi kalimat paralel dari dua korpora monolingual dengan subset dari mereka dianggap paralel, dan itu telah tersedia sejak 2016. Untuk setiap pasangan bahasa, tugas bersama menyediakan korpus monolingual untuk setiap bahasa dan daftar pemetaan emas yang berisi pasangan terjemahan yang sebenarnya. Pasangan ini adalah kebenaran dasar. Tugasnya adalah membuat daftar pasangan terjemahan dari korpora monolingual. Daftar yang dibangun dibandingkan dengan kebenaran dasar, dan dievaluasi dalam ukuran F1.

Beranda : https://comparable.limsi.fr/bucc2018/
Kode sumber : tfds.datasets.bucc.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Di-cache otomatis ( dokumentasi ): Ya
Struktur fitur :

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
source_id	Teks	rangkaian
sumber_kalimat	Teks	rangkaian
target_id	Teks	rangkaian
target_kalimat	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (konfigurasi default)

Ukuran unduhan : 29.30 MiB
Ukuran dataset : 3.21 MiB
Perpecahan :

Membelah	Contoh
`'test'`	9.580
`'validation'`	1.038

Contoh ( tfds.as_dataframe ):

bucc/bucc_fr

Ukuran unduhan : 21.65 MiB
Ukuran dataset : 2.90 MiB
Perpecahan :

Membelah	Contoh
`'test'`	9.086
`'validation'`	929

Contoh ( tfds.as_dataframe ):

bucc/bucc_zh

Ukuran unduhan : 6.79 MiB
Ukuran dataset : 615.20 KiB
Perpecahan :

Membelah	Contoh
`'test'`	1.899
`'validation'`	257

Contoh ( tfds.as_dataframe ):

bucc/bucc_ru

Ukuran unduhan : 39.44 MiB
Ukuran dataset : 6.36 MiB
Perpecahan :

Membelah	Contoh
`'test'`	14.435
`'validation'`	2.374

Contoh ( tfds.as_dataframe ):

bucc Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

bucc/bucc_de (konfigurasi default)

bucc/bucc_fr

bucc/bucc_zh

bucc/bucc_ru

bucc