zampe_x_wiki

  • Descrizione :

Questo set di dati contiene 23.659 coppie di valutazione PAWS tradotte dall'uomo e 296.406 coppie di addestramento tradotte automaticamente in sei lingue tipologicamente distinte:

  • francese
  • spagnolo
  • Tedesco
  • Cinese
  • giapponese
  • coreano

Per ulteriori dettagli, vedere il documento di accompagnamento: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification su https://arxiv.org/abs/1908.11828

Analogamente al set di dati PAWS, gli esempi sono suddivisi in sezioni Train/Dev/Test. Tutti i file sono in formato tsv con quattro colonne:

  1. id : un ID univoco per ogni coppia.
  2. sentence1 : La prima frase.
  3. sentence2 : La seconda frase.
  4. (noisy_)label : Etichetta (rumorosa) per ogni coppia.

Ogni etichetta ha due possibili valori: 0 indica che la coppia ha un significato diverso, mentre 1 indica che la coppia è una parafrasi.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
frase1 Testo corda
frase2 Testo corda
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (configurazione predefinita)

  • Descrizione della configurazione : Tradotto in de

  • Dimensione del set di dati: 15.27 MiB

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki/it

  • Descrizione della configurazione : Tradotto in en

  • Dimensione del set di dati: 14.59 MiB

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki/es

  • Descrizione config : Tradotto in es

  • Dimensione del set di dati: 15.27 MiB

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 49.401
'validation' 1.961

paws_x_wiki/fr

  • Descrizione della configurazione : Tradotto in fr

  • Dimensione del set di dati: 15.79 MiB

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki/ja

  • Descrizione della configurazione : Tradotto in ja

  • Dimensione del set di dati: 17.77 MiB

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 49.401
'validation' 2.000

paws_x_wiki/ko

  • Descrizione della configurazione : Tradotto in ko

  • Dimensione del set di dati: 16.42 MiB

  • Divisioni :

Diviso Esempi
'test' 1.999
'train' 49.164
'validation' 2.000

paws_x_wiki/zh

  • Descrizione della configurazione : Tradotto in zh

  • Dimensione del set di dati: 13.20 MiB

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 49.401
'validation' 2.000