- Descriptif :
Ensembles de données dérivés des transcriptions des conférences TED pour comparer des paires de langues similaires où l'une est à haute ressource et l'autre à faible ressource.
Page d' accueil : https://github.com/neulab/word-embeddings-for-nmt
Code source :
tfds.datasets.ted_hrlr_translate.Builder
Versions :
-
1.0.0
(par défaut) : nouvelle API fractionnée ( https://tensorflow.org/datasets/splits )
-
Taille du téléchargement :
124.94 MiB
Mise en cache automatique ( documentation ): Oui
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{Ye2018WordEmbeddings,
author = {Ye, Qi and Devendra, Sachan and Matthieu, Felix and Sarguna, Padmanabhan and Graham, Neubig},
title = {When and Why are pre-trained word embeddings useful for Neural Machine Translation},
booktitle = {HLT-NAACL},
year = {2018},
}
ted_hrlr_translate/az_to_en (configuration par défaut)
Description de la configuration : ensemble de données de traduction de az à en en texte brut.
Taille du jeu de données :
1.61 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 903 |
'train' | 5 946 |
'validation' | 671 |
- Structure des fonctionnalités :
Translation({
'az': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
az | Texte | chaîne | ||
fr | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('az', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/aztr_to_en
Description de la configuration : ensemble de données de traduction de az_tr en en texte brut.
Taille du jeu de données :
42.54 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 903 |
'train' | 188 396 |
'validation' | 671 |
- Structure des fonctionnalités :
Translation({
'az_tr': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
az_tr | Texte | chaîne | ||
fr | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):('az_tr', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/be_to_en
Description de la configuration : jeu de données de traduction de be à en en texte brut.
Taille du jeu de données :
1.47 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 664 |
'train' | 4 509 |
'validation' | 248 |
- Structure des fonctionnalités :
Translation({
'be': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
être | Texte | chaîne | ||
fr | Texte | chaîne |
Touches supervisées (Voir doc
as_supervised
):('be', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/beru_to_en
Description de la configuration : ensemble de données de traduction de be_ru à en en texte brut.
Taille du jeu de données :
62.45 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 664 |
'train' | 212 614 |
'validation' | 248 |
- Structure des fonctionnalités :
Translation({
'be_ru': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
be_ru | Texte | chaîne | ||
fr | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('be_ru', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/es_to_pt
Description de la configuration : jeu de données de traduction de es en pt en texte brut.
Taille du jeu de données :
9.62 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 763 |
'train' | 44 938 |
'validation' | 1 016 |
- Structure des fonctionnalités :
Translation({
'es': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
es | Texte | chaîne | ||
pt | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('es', 'pt')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/fr_to_pt
Description de la configuration : ensemble de données de traduction de fr à pt en texte brut.
Taille du jeu de données :
9.74 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 494 |
'train' | 43 873 |
'validation' | 1 131 |
- Structure des fonctionnalités :
Translation({
'fr': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
en | Texte | chaîne | ||
pt | Texte | chaîne |
Touches supervisées (Voir doc
as_supervised
):('fr', 'pt')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/gl_to_en
Description de la configuration : ensemble de données de traduction de gl à en en texte brut.
Taille du jeu de données :
2.41 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 007 |
'train' | 10 017 |
'validation' | 682 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'gl': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne | ||
g | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('gl', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/glpt_to_en
Description de la configuration : jeu de données de traduction de gl_pt en en texte brut.
Taille du jeu de données :
12.90 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 007 |
'train' | 61 802 |
'validation' | 682 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'gl_pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne | ||
gl_pt | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('gl_pt', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/he_to_pt
Description de la configuration : ensemble de données de traduction de he à pt en texte brut.
Taille du jeu de données :
11.71 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 623 |
'train' | 48 511 |
'validation' | 1 145 |
- Structure des fonctionnalités :
Translation({
'he': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
il | Texte | chaîne | ||
pt | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('he', 'pt')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/it_to_pt
Description de la configuration : jeu de données de traduction de celui-ci en pt en texte brut.
Taille du jeu de données :
9.94 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 669 |
'train' | 46 259 |
'validation' | 1 162 |
- Structure des fonctionnalités :
Translation({
'it': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
il | Texte | chaîne | ||
pt | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('it', 'pt')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/pt_to_en
Description de la configuration : ensemble de données de traduction de pt à en en texte brut.
Taille du jeu de données :
10.89 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 803 |
'train' | 51 785 |
'validation' | 1 193 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne | ||
pt | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('pt', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/ru_to_en
Description de la configuration : ensemble de données de traduction de ru à en en texte brut.
Taille du jeu de données :
63.22 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 476 |
'train' | 208 106 |
'validation' | 4 805 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne | ||
ru | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('ru', 'en')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/ru_to_pt
Description de la configuration : ensemble de données de traduction de ru à pt en texte brut.
Taille du jeu de données :
13.00 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 588 |
'train' | 47 278 |
'validation' | 1 184 |
- Structure des fonctionnalités :
Translation({
'pt': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
pt | Texte | chaîne | ||
ru | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('ru', 'pt')
Exemples ( tfds.as_dataframe ):
ted_hrlr_translate/tr_to_en
Description de la configuration : ensemble de données de traduction de tr à en en texte brut.
Taille du jeu de données :
42.33 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 029 |
'train' | 182 450 |
'validation' | 4 045 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne | ||
tr | Texte | chaîne |
Touches supervisées (Voir
as_supervised
doc ):('tr', 'en')
Exemples ( tfds.as_dataframe ):