bucc

  • Descrizione :

Identificare frasi parallele in corpora comparabili. Dati due corpora monolingui suddivisi in frasi, ci si aspetta che i sistemi partecipanti identifichino coppie di frasi che sono traduzioni l'una dell'altra.

L'attività mineraria BUCC è un'attività condivisa sull'estrazione parallela di frasi da due corpora monolingui con un sottoinsieme di essi considerato parallelo, disponibile dal 2016. Per ogni combinazione linguistica, l'attività condivisa fornisce un corpus monolingue per ciascuna lingua e un elenco di mappatura oro contenente vere coppie di traduzione. Queste coppie sono la verità fondamentale. Il compito è costruire un elenco di coppie di traduzioni dai corpora monolingui. L'elenco costruito viene confrontato con la verità di base e valutato in termini di misura F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
source_id Testo corda
frase_fonte Testo corda
target_id Testo corda
target_frase Testo corda
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (configurazione predefinita)

  • Dimensione del download : 29.30 MiB

  • Dimensione del set di dati: 3.21 MiB

  • Divisioni :

Diviso Esempi
'test' 9.580
'validation' 1.038

bucc/bucc_fr

  • Dimensione del download : 21.65 MiB

  • Dimensione del set di dati : 2.90 MiB

  • Divisioni :

Diviso Esempi
'test' 9.086
'validation' 929

bucc/bucc_zh

  • Dimensione del download : 6.79 MiB

  • Dimensione del set di dati: 615.20 KiB

  • Divisioni :

Diviso Esempi
'test' 1.899
'validation' 257

bucc/bucc_ru

  • Dimensione del download : 39.44 MiB

  • Dimensione del set di dati: 6.36 MiB

  • Divisioni :

Diviso Esempi
'test' 14.435
'validation' 2.374