paws_x_wiki

  • Beschreibung:

Dieser Datensatz enthält 23.659 von Menschen übersetzte PAWS-Bewertungspaare und 296.406 maschinell übersetzte Trainingspaare in sechs typologisch unterschiedlichen Sprachen:

  • Französisch
  • Spanisch
  • Deutsche
  • Chinesisch
  • japanisch
  • Koreanisch

Weitere Einzelheiten finden Sie in der beigefügten Papier: PFOTEN-X: A Quer lingual Adversarial Datensatz für Paraphrase Identifizierung bei https://arxiv.org/abs/1908.11828

Ähnlich wie beim PAWS Dataset sind die Beispiele in Train/Dev/Test-Abschnitte unterteilt. Alle Dateien liegen im tsv-Format mit vier Spalten vor:

id Eine eindeutige ID für jedes Paar Satz1 Der erste Satz Satz2 Der zweite Satz (noisy_)label (Noisy) Label für jedes Paar

Jedes Label hat zwei mögliche Werte: 0 gibt an, dass das Paar eine andere Bedeutung hat, während 1 angibt, dass das Paar eine Paraphrase ist.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (Standardkonfiguration)

  • Config Beschreibung: Übersetzt auf de

  • Dataset Größe: 15.27 MiB

  • Splits:

Teilt Beispiele
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki/de

  • Config Beschreibung: Übersetzt auf de

  • Dataset Größe: 14.59 MiB

  • Splits:

Teilt Beispiele
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki/es

  • Config Beschreibung: Übersetzt auf es

  • Dataset Größe: 15.27 MiB

  • Splits:

Teilt Beispiele
'test' 2.000
'train' 49,401
'validation' 1.961

paws_x_wiki/fr

  • Config Beschreibung: Übersetzt auf fr

  • Dataset Größe: 15.79 MiB

  • Splits:

Teilt Beispiele
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki/ja

  • Config Beschreibung: Übersetzt to ja

  • Dataset Größe: 17.77 MiB

  • Splits:

Teilt Beispiele
'test' 2.000
'train' 49,401
'validation' 2.000

paws_x_wiki/ko

  • Config Beschreibung: übersetzt zu ko

  • Dataset Größe: 16.42 MiB

  • Splits:

Teilt Beispiele
'test' 1.999
'train' 49.164
'validation' 2.000

paws_x_wiki/zh

  • Config Beschreibung: Übersetzt auf zh

  • Dataset Größe: 13.20 MiB

  • Splits:

Teilt Beispiele
'test' 2.000
'train' 49,401
'validation' 2.000