- Descriptif :
Cet ensemble de données contient 23 659 paires d'évaluation PAWS traduites par l'homme et 296 406 paires d'entraînement traduites par machine dans six langues typologiquement distinctes :
- Français
- Espagnol
- Allemand
- Chinois
- Japonais
- coréen
Pour plus de détails, voir le document d'accompagnement : PAWS-X : A Cross-lingual Adversarial Dataset for Paraphrase Identification at https://arxiv.org/abs/1908.11828
Semblable au jeu de données PAWS, les exemples sont divisés en sections Train/Dev/Test. Tous les fichiers sont au format tsv avec quatre colonnes :
-
id
: Un identifiant unique pour chaque paire. -
sentence1
: La première phrase. -
sentence2
: La deuxième phrase. -
(noisy_)label
: Label (Noisy) pour chaque paire.
Chaque étiquette a deux valeurs possibles : 0 indique que la paire a une signification différente, tandis que 1 indique que la paire est une paraphrase.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research-datasets/paws/tree/master/pawsx
Code source :
tfds.datasets.paws_x_wiki.Builder
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
28.88 MiB
Mise en cache automatique ( documentation ): Oui
Structure des fonctionnalités :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette | Étiquette de classe | int64 | ||
phrase1 | Texte | chaîne de caractères | ||
phrase2 | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
pattes_x_wiki/de (configuration par défaut)
Description de la configuration : Traduit en de
Taille du jeu de données :
15.27 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 49 380 |
'validation' | 2 000 |
- Exemples ( tfds.as_dataframe ):
pattes_x_wiki/fr
Description de la configuration : Traduit en en
Taille du jeu de données :
14.59 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 49 175 |
'validation' | 2 000 |
- Exemples ( tfds.as_dataframe ):
pattes_x_wiki/es
Description de la configuration : Traduit en es
Taille du jeu de données :
15.27 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 49 401 |
'validation' | 1 961 |
- Exemples ( tfds.as_dataframe ):
pattes_x_wiki/fr
Description de la configuration : Traduit en fr
Taille du jeu de données :
15.79 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 49 399 |
'validation' | 1 988 |
- Exemples ( tfds.as_dataframe ):
pattes_x_wiki/ja
Description de la configuration : Traduit en ja
Taille du jeu de données :
17.77 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 49 401 |
'validation' | 2 000 |
- Exemples ( tfds.as_dataframe ):
pattes_x_wiki/ko
Description de la configuration : Traduit en ko
Taille du jeu de données :
16.42 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 999 |
'train' | 49 164 |
'validation' | 2 000 |
- Exemples ( tfds.as_dataframe ):
pattes_x_wiki/zh
Description de la configuration : Traduit en zh
Taille du jeu de données :
13.20 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 49 401 |
'validation' | 2 000 |
- Exemples ( tfds.as_dataframe ):