- Descriptif :
XQuAD (Cross-lingual Question Answering Dataset) est un ensemble de données de référence pour évaluer les performances de réponse aux questions multilingues. L'ensemble de données se compose d'un sous-ensemble de 240 paragraphes et 1190 paires de questions-réponses de l'ensemble de développement de SQuAD v1.1 (Rajpurkar et al., 2016) ainsi que leurs traductions professionnelles en dix langues : espagnol, allemand, grec, russe, turc , arabe, vietnamien, thaï, chinois et hindi. Par conséquent, l'ensemble de données est entièrement parallèle dans 11 langues. Pour exécuter XQuAD dans le paramètre zéro-shot par défaut, utilisez les données de formation et de validation SQuAD v1.1 ici : https://www.tensorflow.org/datasets/catalog/squad
Nous incluons également les divisions "translate-train", "translate-dev" et "translate-test" pour chaque langue non anglaise de XTREME (Hu et al., 2020). Ceux-ci peuvent être utilisés pour exécuter XQuAD dans les paramètres "translate-train" ou "translate-test".
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/deepmind/xquad
Code source :
tfds.question_answering.Xquad
Versions :
-
3.0.0
(par défaut) : résout le problème avec un certain nombre d'exemples où les étendues de réponse sont mal alignées en raison de la suppression des espaces blancs de contexte. Ce changement affecte environ 14 % des exemples de test.
-
Structure des fonctionnalités :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
réponses | Séquence | |||
réponses/answer_start | Tenseur | int32 | ||
réponses/texte | Texte | chaîne de caractères | ||
le contexte | Texte | chaîne de caractères | ||
identifiant | Tenseur | chaîne de caractères | ||
question | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (configuration par défaut)
Description de la configuration : fractionnement de test XQuAD 'ar', avec traduction automatique des fractionnements translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).
Taille du téléchargement :
420.97 MiB
Taille du jeu de données :
134.83 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 541 |
'translate-test' | 1 151 |
'translate-train' | 86 787 |
- Exemples ( tfds.as_dataframe ):
xquad/de
Description de la configuration : XQuAD 'de' test split, avec les splits translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).
Taille du téléchargement :
127.04 MiB
Taille du jeu de données :
98.80 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 371 |
'translate-test' | 1 168 |
'translate-train' | 82 603 |
- Exemples ( tfds.as_dataframe ):
xquad/él
Description de la configuration : fractionnement de test XQuAD 'el', avec des fractionnements traduits automatiquement translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).
Taille du téléchargement :
499.40 MiB
Taille du jeu de données :
157.90 MiB
Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque
shuffle_files=False
(translate-train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 100 |
'translate-test' | 1 182 |
'translate-train' | 79 946 |
- Exemples ( tfds.as_dataframe ):
xquad/es
Description de la configuration : fractionnement de test XQuAD 'es', avec traduction automatique des fractionnements translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).
Taille du téléchargement :
138.41 MiB
Taille du jeu de données :
104.96 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 566 |
'translate-test' | 1 188 |
'translate-train' | 87 488 |
- Exemples ( tfds.as_dataframe ):
xquad/salut
Description de la configuration : fractionnement de test XQuAD 'hi', avec des fractionnements translate-train/translate-dev/translate-test traduits automatiquement de XTREME (Hu et al., 2020).
Taille du téléchargement :
472.23 MiB
Taille du jeu de données :
207.85 MiB
Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque
shuffle_files=False
(translate-train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 536 |
'translate-test' | 1 184 |
'translate-train' | 85 804 |
- Exemples ( tfds.as_dataframe ):
xquad/ru
Description de la configuration : fractionnement de test XQuAD 'ru', avec des fractionnements translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).
Taille du téléchargement :
513.80 MiB
Taille du jeu de données :
159.38 MiB
Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque
shuffle_files=False
(translate-train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 469 |
'translate-test' | 1 190 |
'translate-train' | 84 869 |
- Exemples ( tfds.as_dataframe ):
xquad/th
Description de la configuration : XQuAD 'th' test split, avec les splits translate-train/translate-dev/translate-test traduits automatiquement de XTREME (Hu et al., 2020).
Taille du téléchargement :
461.54 MiB
Taille du jeu de données :
199.57 MiB
Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque
shuffle_files=False
(translate-train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 516 |
'translate-test' | 1 157 |
'translate-train' | 85 846 |
- Exemples ( tfds.as_dataframe ):
xquad/tr
Description de la configuration : XQuAD 'tr' test split, avec les splits translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).
Taille du téléchargement :
151.08 MiB
Taille du jeu de données :
97.56 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 535 |
'translate-test' | 1 112 |
'translate-train' | 86 511 |
- Exemples ( tfds.as_dataframe ):
xquad/vi
Description de la configuration : fractionnement de test XQuAD 'vi', avec des fractionnements translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).
Taille du téléchargement :
218.09 MiB
Taille du jeu de données :
120.03 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 555 |
'translate-test' | 1 178 |
'translate-train' | 87 187 |
- Exemples ( tfds.as_dataframe ):
xquad/zh
Description de la configuration : fractionnement de test XQuAD 'zh', avec des fractionnements traduits automatiquement translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).
Taille du téléchargement :
174.57 MiB
Taille du jeu de données :
80.79 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
'translate-dev' | 10 475 |
'translate-test' | 1 186 |
'translate-train' | 85 700 |
- Exemples ( tfds.as_dataframe ):
xquad/fr
Description de la configuration : XQuAD 'en' test split.
Taille du téléchargement :
595.10 KiB
Taille du jeu de données :
1.19 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 190 |
- Exemples ( tfds.as_dataframe ):