- Deskripsi :
Dataset ini berisi 23.659 pasangan evaluasi PAWS yang diterjemahkan manusia dan 296.406 pasangan pelatihan yang diterjemahkan mesin dalam enam bahasa yang berbeda secara tipologis:
- Perancis
- Orang Spanyol
- Jerman
- Cina
- Jepang
- Korea
Untuk perincian lebih lanjut, lihat makalah terlampir: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification di https://arxiv.org/abs/1908.11828
Mirip dengan PAWS Dataset, contoh dibagi menjadi bagian Train/Dev/Test. Semua file dalam format tsv dengan empat kolom:
-
id
: ID unik untuk setiap pasangan. -
sentence1
pertama. -
sentence2
: Kalimat kedua. -
(noisy_)label
: label (berisik) untuk setiap pasangan.
Setiap label memiliki dua nilai yang mungkin: 0 menunjukkan pasangan tersebut memiliki arti yang berbeda, sedangkan 1 menunjukkan pasangan tersebut adalah parafrase.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/google-research-datasets/paws/tree/master/pawsx
Kode sumber :
tfds.datasets.paws_x_wiki.Builder
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
28.88 MiB
Di-cache otomatis ( dokumentasi ): Ya
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label | LabelKelas | int64 | ||
kalimat1 | Teks | rangkaian | ||
kalimat2 | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (konfigurasi default)
Deskripsi konfigurasi : Diterjemahkan ke de
Ukuran dataset :
15.27 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
- Contoh ( tfds.as_dataframe ):
paws_x_wiki/en
Deskripsi konfigurasi : Diterjemahkan ke en
Ukuran dataset :
14.59 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
- Contoh ( tfds.as_dataframe ):
paws_x_wiki/es
Deskripsi konfigurasi : Diterjemahkan ke es
Ukuran dataset :
15.27 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
- Contoh ( tfds.as_dataframe ):
paws_x_wiki/fr
Deskripsi konfigurasi : Diterjemahkan ke fr
Ukuran dataset :
15.79 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
- Contoh ( tfds.as_dataframe ):
paws_x_wiki/ja
Deskripsi konfigurasi : Diterjemahkan ke ja
Ukuran dataset :
17.77 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Contoh ( tfds.as_dataframe ):
paws_x_wiki/ko
Deskripsi konfigurasi : Diterjemahkan ke ko
Ukuran dataset :
16.42 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
- Contoh ( tfds.as_dataframe ):
paws_x_wiki/zh
Deskripsi konfigurasi : Diterjemahkan ke zh
Ukuran dataset :
13.20 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Contoh ( tfds.as_dataframe ):