pattes_x_wiki

  • Descriptif :

Cet ensemble de données contient 23 659 paires d'évaluation PAWS traduites par l'homme et 296 406 paires d'entraînement traduites par machine dans six langues typologiquement distinctes :

  • Français
  • Espagnol
  • Allemand
  • Chinois
  • Japonais
  • coréen

Pour plus de détails, voir le document d'accompagnement : PAWS-X : A Cross-lingual Adversarial Dataset for Paraphrase Identification at https://arxiv.org/abs/1908.11828

Semblable au jeu de données PAWS, les exemples sont divisés en sections Train/Dev/Test. Tous les fichiers sont au format tsv avec quatre colonnes :

  1. id : Un identifiant unique pour chaque paire.
  2. sentence1 : La première phrase.
  3. sentence2 : La deuxième phrase.
  4. (noisy_)label : Label (Noisy) pour chaque paire.

Chaque étiquette a deux valeurs possibles : 0 indique que la paire a une signification différente, tandis que 1 indique que la paire est une paraphrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
étiquette Étiquette de classe int64
phrase1 Texte chaîne de caractères
phrase2 Texte chaîne de caractères
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

pattes_x_wiki/de (configuration par défaut)

  • Description de la configuration : Traduit en de

  • Taille du jeu de données : 15.27 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 49 380
'validation' 2 000

pattes_x_wiki/fr

  • Description de la configuration : Traduit en en

  • Taille du jeu de données : 14.59 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 49 175
'validation' 2 000

pattes_x_wiki/es

  • Description de la configuration : Traduit en es

  • Taille du jeu de données : 15.27 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 49 401
'validation' 1 961

pattes_x_wiki/fr

  • Description de la configuration : Traduit en fr

  • Taille du jeu de données : 15.79 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 49 399
'validation' 1 988

pattes_x_wiki/ja

  • Description de la configuration : Traduit en ja

  • Taille du jeu de données : 17.77 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 49 401
'validation' 2 000

pattes_x_wiki/ko

  • Description de la configuration : Traduit en ko

  • Taille du jeu de données : 16.42 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 999
'train' 49 164
'validation' 2 000

pattes_x_wiki/zh

  • Description de la configuration : Traduit en zh

  • Taille du jeu de données : 13.20 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 49 401
'validation' 2 000