- Descriptif :
Identifier des phrases parallèles dans des corpus comparables. Étant donné deux corpus monolingues divisés en phrases, les systèmes participants sont censés identifier des paires de phrases qui sont des traductions l'une de l'autre.
La tâche de minage BUCC est une tâche partagée d'extraction de phrases parallèles à partir de deux corpus monolingues dont un sous-ensemble est supposé être parallèle, et qui est disponible depuis 2016. Pour chaque paire de langues, la tâche partagée fournit un corpus monolingue pour chaque langue et une liste de mappage d'or contenant de vraies paires de traduction. Ces paires sont la vérité de terrain. La tâche est de construire une liste de paires de traduction à partir des corpus monolingues. La liste construite est comparée à la vérité terrain et évaluée en fonction de la mesure F1.
Page d' accueil : https://comparable.limsi.fr/bucc2018/
Code source :
tfds.datasets.bucc.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Mise en cache automatique ( documentation ): Oui
Structure des fonctionnalités :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
id_source | Texte | chaîne de caractères | ||
phrase_source | Texte | chaîne de caractères | ||
id_cible | Texte | chaîne de caractères | ||
phrase_cible | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (configuration par défaut)
Taille du téléchargement :
29.30 MiB
Taille du jeu de données :
3.21 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 9 580 |
'validation' | 1 038 |
- Exemples ( tfds.as_dataframe ):
bucc/bucc_fr
Taille du téléchargement :
21.65 MiB
Taille du jeu de données :
2.90 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 9 086 |
'validation' | 929 |
- Exemples ( tfds.as_dataframe ):
bucc/bucc_zh
Taille du téléchargement :
6.79 MiB
Taille du jeu de données :
615.20 KiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 899 |
'validation' | 257 |
- Exemples ( tfds.as_dataframe ):
bucc/bucc_ru
Taille du téléchargement :
39.44 MiB
Taille du jeu de données :
6.36 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 14 435 |
'validation' | 2 374 |
- Exemples ( tfds.as_dataframe ):