paws_x_wiki

  • Deskripsi :

Kumpulan data ini berisi 23.659 pasangan evaluasi PAWS yang diterjemahkan oleh manusia dan 296.406 pasangan pelatihan yang diterjemahkan oleh mesin dalam enam bahasa yang berbeda secara tipologis:

  • Perancis
  • Orang Spanyol
  • Jerman
  • Cina
  • Jepang
  • Korea

Untuk detail lebih lanjut, lihat makalah terlampir: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification di https://arxiv.org/abs/1908.11828

Mirip dengan PAWS Dataset, contoh dibagi menjadi bagian Train/Dev/Test. Semua file dalam format tsv dengan empat kolom:

id Sebuah id unik untuk setiap pasangan kalimat1 Kalimat kalimat pertama kalimat2 Kalimat kedua (berisik_)label (berisik) untuk setiap pasangan

Setiap label memiliki dua kemungkinan nilai: 0 menunjukkan pasangan memiliki arti yang berbeda, sedangkan 1 menunjukkan pasangan adalah parafrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
label Label Kelas tf.int64
kalimat1 Teks tf.string
kalimat2 Teks tf.string
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (konfigurasi default)

  • Deskripsi konfigurasi : Diterjemahkan ke de

  • Ukuran kumpulan data : 15.27 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki/en

  • Deskripsi konfigurasi : Diterjemahkan ke en

  • Ukuran kumpulan data : 14.59 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki/es

  • Deskripsi konfigurasi : Diterjemahkan ke es

  • Ukuran kumpulan data : 15.27 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 49.401
'validation' 1,961

paws_x_wiki/fr

  • Deskripsi konfigurasi : Diterjemahkan ke fr

  • Ukuran kumpulan data : 15.79 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki/ja

  • Deskripsi konfigurasi : Diterjemahkan ke ja

  • Ukuran kumpulan data: 17.77 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 49.401
'validation' 2.000

paws_x_wiki/ko

  • Deskripsi konfigurasi : Diterjemahkan ke ko

  • Ukuran kumpulan data : 16.42 MiB

  • Perpecahan :

Membelah Contoh
'test' 1.999
'train' 49,164
'validation' 2.000

paws_x_wiki/zh

  • Deskripsi konfigurasi : Diterjemahkan ke zh

  • Ukuran kumpulan data : 13.20 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 49.401
'validation' 2.000