bucc

 • opis :

Identyfikacja zdań równoległych w korpusach porównywalnych. Biorąc pod uwagę dwa jednojęzyczne korpusy podzielone na zdania, oczekuje się, że systemy uczestników będą identyfikować pary zdań, które są wzajemnymi tłumaczeniami.

Zadanie eksploracji BUCC jest wspólnym zadaniem polegającym na równoległym wydobywaniu zdań z dwóch jednojęzycznych korpusów, z których podzbiorem zakłada się, że jest równoległy, i które jest dostępne od 2016 r. Dla każdej pary językowej wspólne zadanie zapewnia jednojęzyczny korpus dla każdego języka i złota lista mapowania zawierająca prawdziwe pary tłumaczeń. Te pary są podstawową prawdą. Zadanie polega na skonstruowaniu listy par tłumaczeniowych z korpusów jednojęzycznych. Skonstruowana lista jest porównywana z prawdą podstawową i oceniana pod względem miary F1.

FeaturesDict({
  'source_id': Text(shape=(), dtype=string),
  'source_sentence': Text(shape=(), dtype=string),
  'target_id': Text(shape=(), dtype=string),
  'target_sentence': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_źródła Tekst strunowy
zdanie_źródłowe Tekst strunowy
identyfikator_celu Tekst strunowy
zdanie_docelowe Tekst strunowy
@inproceedings{zweigenbaum2018overview,
 title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
 author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
 booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
 pages={39--42},
 year={2018}
}

bucc/bucc_de (domyślna konfiguracja)

 • Rozmiar pliku do pobrania : 29.30 MiB

 • Rozmiar zestawu danych : 3.21 MiB

 • Podziały :

Rozdzielać Przykłady
'test' 9580
'validation' 1038

bucc/bucc_fr

 • Rozmiar pliku do pobrania : 21.65 MiB

 • Rozmiar zestawu danych : 2.90 MiB

 • Podziały :

Rozdzielać Przykłady
'test' 9086
'validation' 929

bucc/bucc_zh

 • Rozmiar pliku do pobrania : 6.79 MiB

 • Rozmiar zbioru danych : 615.20 KiB

 • Podziały :

Rozdzielać Przykłady
'test' 1899
'validation' 257

bucc/bucc_ru

 • Rozmiar pliku do pobrania : 39.44 MiB

 • Rozmiar zestawu danych : 6.36 MiB

 • Podziały :

Rozdzielać Przykłady
'test' 14435
'validation' 2374