- Descrizione :
Questo set di dati contiene 23.659 coppie di valutazione PAWS tradotte dall'uomo e 296.406 coppie di addestramento tradotte automaticamente in sei lingue tipologicamente distinte:
- francese
- spagnolo
- Tedesco
- Cinese
- giapponese
- coreano
Per ulteriori dettagli, vedere il documento di accompagnamento: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification su https://arxiv.org/abs/1908.11828
Analogamente a PAWS Dataset, gli esempi sono suddivisi in sezioni Train/Dev/Test. Tutti i file sono in formato tsv con quattro colonne:
id Un id univoco per ogni coppia frase1 La prima frase frase2 La seconda frase (noisy_)etichetta (Noisy) etichetta per ogni coppia
Ogni etichetta ha due possibili valori: 0 indica che la coppia ha un significato diverso, mentre 1 indica che la coppia è una parafrasi.
Homepage : https://github.com/google-research-datasets/paws/tree/master/pawsx
Codice sorgente :
tfds.text.paws_x_wiki.PawsXWiki
Versioni :
-
1.0.0
(predefinito): nessuna nota di rilascio.
-
Dimensione download :
28.88 MiB
Memorizzazione automatica nella cache ( documentazione ): Sì
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | tf.int64 | ||
frase1 | Testo | tf.string | ||
frase2 | Testo | tf.string |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): mancante.
Citazione :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configurazione predefinita)
Descrizione configurazione : Tradotto in de
Dimensione del set di dati:
15.27 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
zampe_x_wiki/en
Descrizione della configurazione : Tradotto in en
Dimensione del set di dati:
14.59 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
zampe_x_wiki/es
Descrizione della configurazione : Tradotto in es
Dimensione del set di dati:
15.27 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
zampe_x_wiki/fr
Descrizione della configurazione : Tradotto a fr
Dimensione del set di dati:
15.79 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
zampe_x_wiki/ja
Descrizione della configurazione : Tradotto in ja
Dimensione del set di dati:
17.77 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
zampe_x_wiki/ko
Descrizione della configurazione : Tradotto in ko
Dimensione del set di dati:
16.42 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
zampe_x_wiki/zh
Descrizione della configurazione : Tradotto in zh
Dimensione del set di dati:
13.20 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |