TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

pattes_x_wiki

Descriptif :

Cet ensemble de données contient 23 659 paires d'évaluation PAWS traduites par l'homme et 296 406 paires d'entraînement traduites par machine dans six langues typologiquement distinctes :

Français
Espagnol
Allemand
Chinois
Japonais
coréen

Pour plus de détails, voir le document d'accompagnement : PAWS-X : A Cross-lingual Adversarial Dataset for Paraphrase Identification at https://arxiv.org/abs/1908.11828

Semblable au jeu de données PAWS, les exemples sont divisés en sections Train/Dev/Test. Tous les fichiers sont au format tsv avec quatre colonnes :

id : Un identifiant unique pour chaque paire.
sentence1 : La première phrase.
sentence2 : La deuxième phrase.
(noisy_)label : Label (Noisy) pour chaque paire.

Chaque étiquette a deux valeurs possibles : 0 indique que la paire a une signification différente, tandis que 1 indique que la paire est une paraphrase.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research-datasets/paws/tree/master/pawsx
Code source : tfds.datasets.paws_x_wiki.Builder
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : 28.88 MiB
Mise en cache automatique ( documentation ): Oui
Structure des fonctionnalités :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
étiquette	Étiquette de classe	int64
phrase1	Texte	chaîne de caractères
phrase2	Texte	chaîne de caractères

Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

pattes_x_wiki/de (configuration par défaut)

Description de la configuration : Traduit en de
Taille du jeu de données : 15.27 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 000
`'train'`	49 380
`'validation'`	2 000

Exemples ( tfds.as_dataframe ):

pattes_x_wiki/fr

Description de la configuration : Traduit en en
Taille du jeu de données : 14.59 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 000
`'train'`	49 175
`'validation'`	2 000

Exemples ( tfds.as_dataframe ):

pattes_x_wiki/es

Description de la configuration : Traduit en es
Taille du jeu de données : 15.27 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 000
`'train'`	49 401
`'validation'`	1 961

Exemples ( tfds.as_dataframe ):

pattes_x_wiki/fr

Description de la configuration : Traduit en fr
Taille du jeu de données : 15.79 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 000
`'train'`	49 399
`'validation'`	1 988

Exemples ( tfds.as_dataframe ):

pattes_x_wiki/ja

Description de la configuration : Traduit en ja
Taille du jeu de données : 17.77 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 000
`'train'`	49 401
`'validation'`	2 000

Exemples ( tfds.as_dataframe ):

pattes_x_wiki/ko

Description de la configuration : Traduit en ko
Taille du jeu de données : 16.42 MiB
Fractionnements :

Diviser	Exemples
`'test'`	1 999
`'train'`	49 164
`'validation'`	2 000

Exemples ( tfds.as_dataframe ):

pattes_x_wiki/zh

Description de la configuration : Traduit en zh
Taille du jeu de données : 13.20 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 000
`'train'`	49 401
`'validation'`	2 000

Exemples ( tfds.as_dataframe ):

pattes_x_wiki Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

pattes_x_wiki/de (configuration par défaut)

pattes_x_wiki/fr

pattes_x_wiki/es

pattes_x_wiki/fr

pattes_x_wiki/ja

pattes_x_wiki/ko

pattes_x_wiki/zh

pattes_x_wiki