- Описание :
Выявление параллельных предложений в сопоставимых корпусах. Ожидается, что при наличии двух одноязычных корпусов, разделенных на предложения, участвующие системы будут идентифицировать пары предложений, которые являются переводами друг друга.
Задача интеллектуального анализа данных BUCC — это общая задача по параллельному извлечению предложений из двух одноязычных корпусов, подмножество которых предполагается параллельным, и которая доступна с 2016 года. Для каждой языковой пары общая задача предоставляет одноязычный корпус для каждого языка и золотой список сопоставлений, содержащий истинные пары перевода. Эти пары — истина. Задача состоит в том, чтобы построить список пар перевода из одноязычных корпусов. Построенный список сравнивается с реальными данными и оценивается с точки зрения меры F1.
Домашняя страница : https://comparable.limsi.fr/bucc2018/
Исходный код :
tfds.datasets.bucc.BuilderВерсии :
-
1.0.0(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Да
Структура функции :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| source_id | Текст | нить | ||
| исходное_предложение | Текст | нить | ||
| target_id | Текст | нить | ||
| target_sentence | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (конфигурация по умолчанию)
Размер загрузки :
29.30 MiBРазмер набора данных :
3.21 MiB.Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 9580 |
'validation' | 1038 |
- Примеры ( tfds.as_dataframe ):
bucc/bucc_fr
Размер загрузки :
21.65 MiBРазмер набора данных :
2.90 MiB.Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 9086 |
'validation' | 929 |
- Примеры ( tfds.as_dataframe ):
bucc/bucc_zh
Размер загрузки :
6.79 MiBРазмер набора данных :
615.20 KiB.Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 1899 |
'validation' | 257 |
- Примеры ( tfds.as_dataframe ):
bucc/bucc_ru
Размер загрузки :
39.44 MiBРазмер набора данных :
6.36 MiB.Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 14 435 |
'validation' | 2374 |
- Примеры ( tfds.as_dataframe ):