- Deskripsi :
Dataset identifikasi parafrase yang ada kekurangan pasangan kalimat yang memiliki tumpang tindih leksikal yang tinggi tanpa parafrase. Model yang dilatih pada data tersebut gagal membedakan pasangan seperti penerbangan dari New York ke Florida dan penerbangan dari Florida ke New York. Dataset ini berisi 108.463 pasangan berlabel manusia dan 656k berlabel ribut yang menonjolkan pentingnya struktur pemodelan, konteks, dan informasi urutan kata untuk masalah identifikasi parafrase.
Untuk perincian lebih lanjut, lihat makalah terlampir: PAWS: Paraphrase Adversaries from Word Scrambling di https://arxiv.org/abs/1904.01130
Korpus ini berisi pasangan yang dihasilkan dari halaman Wikipedia, berisi pasangan yang dihasilkan dari metode pertukaran kata dan terjemahan balik. Semua pasangan memiliki penilaian manusia pada kedua parafrase dan kefasihan dan mereka dibagi menjadi bagian Train/Dev/Test.
Semua file dalam format tsv dengan empat kolom:
-
id
: ID unik untuk setiap pasangan. -
sentence1
pertama. -
sentence2
: Kalimat kedua. -
(noisy_)label
: label (berisik) untuk setiap pasangan.
Setiap label memiliki dua nilai yang mungkin: 0 menunjukkan pasangan tersebut memiliki arti yang berbeda, sedangkan 1 menunjukkan pasangan tersebut adalah parafrase.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.paws_wiki.Builder
Versi :
-
1.0.0
: Versi awal. -
1.1.0
(default): Menambahkan konfigurasi ke subset yang berbeda dan mendukung teks mentah.
-
Ukuran unduhan :
57.47 MiB
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label | LabelKelas | int64 | ||
kalimat1 | Teks | rangkaian | ||
kalimat2 | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (konfigurasi default)
Deskripsi konfigurasi : Subset: label_final tokenized: True
Ukuran dataset :
17.96 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Contoh ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
Deskripsi konfigurasi : Subset: label_final tokenized: False
Ukuran dataset :
17.57 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Contoh ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Deskripsi konfigurasi : Subset: label_swap tokenized: True
Ukuran dataset :
8.79 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 30.397 |
- Contoh ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Deskripsi konfigurasi : Subset: label_swap tokenized: False
Ukuran dataset :
8.60 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 30.397 |
- Contoh ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Deskripsi konfigurasi : Subset: unlabeled_final tokenized: True
Ukuran dataset :
177.89 MiB
Auto-cached ( dokumentasi ): Ya (validasi), Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 645.652 |
'validation' | 10.000 |
- Contoh ( tfds.as_dataframe ):