бук

  • Описание :

Выявление параллельных предложений в сопоставимых корпусах. Ожидается, что при наличии двух одноязычных корпусов, разделенных на предложения, участвующие системы будут идентифицировать пары предложений, которые являются переводами друг друга.

Задача интеллектуального анализа данных BUCC — это общая задача по параллельному извлечению предложений из двух одноязычных корпусов, подмножество которых предполагается параллельным, и которая доступна с 2016 года. Для каждой языковой пары общая задача предоставляет одноязычный корпус для каждого языка и золотой список отображения, содержащий истинные пары перевода. Эти пары — истина. Задача состоит в том, чтобы построить список пар перевода из одноязычных корпусов. Построенный список сравнивается с реальными данными и оценивается с точки зрения меры F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=tf.string),
    'source_sentence': Text(shape=(), dtype=tf.string),
    'target_id': Text(shape=(), dtype=tf.string),
    'target_sentence': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
source_id Текст tf.string
исходное_предложение Текст tf.string
target_id Текст tf.string
target_sentence Текст tf.string
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (конфигурация по умолчанию)

  • Размер загрузки : 29.30 MiB

  • Размер набора данных : 3.21 MiB .

  • Сплиты :

Расколоть Примеры
'test' 9580
'validation' 1038

bucc/bucc_fr

  • Размер загрузки : 21.65 MiB

  • Размер набора данных : 2.90 MiB .

  • Сплиты :

Расколоть Примеры
'test' 9086
'validation' 929

bucc/bucc_zh

  • Размер загрузки : 6.79 MiB

  • Размер набора данных : 615.20 KiB .

  • Сплиты :

Расколоть Примеры
'test' 1899
'validation' 257

bucc/bucc_ru

  • Размер загрузки : 39.44 MiB

  • Размер набора данных : 6.36 MiB .

  • Сплиты :

Расколоть Примеры
'test' 14 435
'validation' 2374