buc

  • Descripción :

Identificación de oraciones paralelas en corpus comparables. Dados dos corpus monolingües divididos en oraciones, se espera que los sistemas participantes identifiquen pares de oraciones que son traducciones entre sí.

La tarea de minería BUCC es una tarea compartida sobre la extracción de oraciones paralelas de dos corpus monolingües con un subconjunto de ellos asumido como paralelo, y que ha estado disponible desde 2016. Para cada par de idiomas, la tarea compartida proporciona un corpus monolingüe para cada idioma y una lista de mapeo de oro que contiene pares de traducción verdaderos. Estos pares son la verdad fundamental. La tarea es construir una lista de pares de traducción de los corpus monolingües. La lista construida se compara con la realidad básica y se evalúa en términos de la medida F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
source_id Texto cuerda
oración_origen Texto cuerda
target_id Texto cuerda
frase_objetivo Texto cuerda
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (configuración predeterminada)

  • Tamaño de descarga : 29.30 MiB

  • Tamaño del conjunto de datos : 3.21 MiB

  • Divisiones :

Separar Ejemplos
'test' 9,580
'validation' 1,038

bucc/bucc_fr

  • Tamaño de la descarga : 21.65 MiB

  • Tamaño del conjunto de datos : 2.90 MiB

  • Divisiones :

Separar Ejemplos
'test' 9,086
'validation' 929

bucc/bucc_zh

  • Tamaño de la descarga : 6.79 MiB

  • Tamaño del conjunto de datos : 615.20 KiB

  • Divisiones :

Separar Ejemplos
'test' 1,899
'validation' 257

bucc/bucc_ru

  • Tamaño de la descarga : 39.44 MiB

  • Tamaño del conjunto de datos : 6.36 MiB

  • Divisiones :

Separar Ejemplos
'test' 14,435
'validation' 2,374