- Deskripsi :
Mengidentifikasi kalimat paralel dalam kumpulan yang sebanding. Diberikan dua korpora monolingual yang dipisahkan kalimat, sistem peserta diharapkan dapat mengidentifikasi pasangan kalimat yang merupakan terjemahan satu sama lain.
Tugas penambangan BUCC adalah tugas bersama pada ekstraksi kalimat paralel dari dua korpora monolingual dengan subset dari mereka dianggap paralel, dan itu telah tersedia sejak 2016. Untuk setiap pasangan bahasa, tugas bersama menyediakan korpus monolingual untuk setiap bahasa dan daftar pemetaan emas yang berisi pasangan terjemahan yang sebenarnya. Pasangan ini adalah kebenaran dasar. Tugasnya adalah membuat daftar pasangan terjemahan dari korpora monolingual. Daftar yang dibangun dibandingkan dengan kebenaran dasar, dan dievaluasi dalam ukuran F1.
Beranda : https://comparable.limsi.fr/bucc2018/
Kode sumber :
tfds.datasets.bucc.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Di-cache otomatis ( dokumentasi ): Ya
Struktur fitur :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
source_id | Teks | rangkaian | ||
sumber_kalimat | Teks | rangkaian | ||
target_id | Teks | rangkaian | ||
target_kalimat | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (konfigurasi default)
Ukuran unduhan :
29.30 MiB
Ukuran dataset :
3.21 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 9.580 |
'validation' | 1.038 |
- Contoh ( tfds.as_dataframe ):
bucc/bucc_fr
Ukuran unduhan :
21.65 MiB
Ukuran dataset :
2.90 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 9.086 |
'validation' | 929 |
- Contoh ( tfds.as_dataframe ):
bucc/bucc_zh
Ukuran unduhan :
6.79 MiB
Ukuran dataset :
615.20 KiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.899 |
'validation' | 257 |
- Contoh ( tfds.as_dataframe ):
bucc/bucc_ru
Ukuran unduhan :
39.44 MiB
Ukuran dataset :
6.36 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 14.435 |
'validation' | 2.374 |
- Contoh ( tfds.as_dataframe ):