- Deskripsi :
Kumpulan data ini berisi 23.659 pasangan evaluasi PAWS yang diterjemahkan oleh manusia dan 296.406 pasangan pelatihan yang diterjemahkan oleh mesin dalam enam bahasa yang berbeda secara tipologis:
- Perancis
- Orang Spanyol
- Jerman
- Cina
- Jepang
- Korea
Untuk detail lebih lanjut, lihat makalah terlampir: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification di https://arxiv.org/abs/1908.11828
Mirip dengan PAWS Dataset, contoh dibagi menjadi bagian Train/Dev/Test. Semua file dalam format tsv dengan empat kolom:
id Sebuah id unik untuk setiap pasangan kalimat1 Kalimat kalimat pertama kalimat2 Kalimat kedua (berisik_)label (berisik) untuk setiap pasangan
Setiap label memiliki dua kemungkinan nilai: 0 menunjukkan pasangan memiliki arti yang berbeda, sedangkan 1 menunjukkan pasangan adalah parafrase.
Beranda : https://github.com/google-research-datasets/paws/tree/master/pawsx
Kode sumber :
tfds.text.paws_x_wiki.PawsXWiki
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
28.88 MiB
Cache otomatis ( dokumentasi ): Ya
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
label | Label Kelas | tf.int64 | ||
kalimat1 | Teks | tf.string | ||
kalimat2 | Teks | tf.string |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
kutipan :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (konfigurasi default)
Deskripsi konfigurasi : Diterjemahkan ke de
Ukuran kumpulan data :
15.27 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
paws_x_wiki/en
Deskripsi konfigurasi : Diterjemahkan ke en
Ukuran kumpulan data :
14.59 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
paws_x_wiki/es
Deskripsi konfigurasi : Diterjemahkan ke es
Ukuran kumpulan data :
15.27 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1,961 |
paws_x_wiki/fr
Deskripsi konfigurasi : Diterjemahkan ke fr
Ukuran kumpulan data :
15.79 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
paws_x_wiki/ja
Deskripsi konfigurasi : Diterjemahkan ke ja
Ukuran kumpulan data:
17.77 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
paws_x_wiki/ko
Deskripsi konfigurasi : Diterjemahkan ke ko
Ukuran kumpulan data :
16.42 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.999 |
'train' | 49,164 |
'validation' | 2.000 |
paws_x_wiki/zh
Deskripsi konfigurasi : Diterjemahkan ke zh
Ukuran kumpulan data :
13.20 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |