paws_wiki

  • Deskripsi :

Dataset identifikasi parafrase yang ada kekurangan pasangan kalimat yang memiliki tumpang tindih leksikal yang tinggi tanpa parafrase. Model yang dilatih pada data tersebut gagal membedakan pasangan seperti penerbangan dari New York ke Florida dan penerbangan dari Florida ke New York. Dataset ini berisi 108.463 pasangan berlabel manusia dan 656k berlabel ribut yang menonjolkan pentingnya struktur pemodelan, konteks, dan informasi urutan kata untuk masalah identifikasi parafrase.

Untuk perincian lebih lanjut, lihat makalah terlampir: PAWS: Paraphrase Adversaries from Word Scrambling di https://arxiv.org/abs/1904.01130

Korpus ini berisi pasangan yang dihasilkan dari halaman Wikipedia, berisi pasangan yang dihasilkan dari metode pertukaran kata dan terjemahan balik. Semua pasangan memiliki penilaian manusia pada kedua parafrase dan kefasihan dan mereka dibagi menjadi bagian Train/Dev/Test.

Semua file dalam format tsv dengan empat kolom:

  1. id : ID unik untuk setiap pasangan.
  2. sentence1 pertama.
  3. sentence2 : Kalimat kedua.
  4. (noisy_)label : label (berisik) untuk setiap pasangan.

Setiap label memiliki dua nilai yang mungkin: 0 menunjukkan pasangan tersebut memiliki arti yang berbeda, sedangkan 1 menunjukkan pasangan tersebut adalah parafrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
label LabelKelas int64
kalimat1 Teks rangkaian
kalimat2 Teks rangkaian
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (konfigurasi default)

  • Deskripsi konfigurasi : Subset: label_final tokenized: True

  • Ukuran dataset : 17.96 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_final_raw

  • Deskripsi konfigurasi : Subset: label_final tokenized: False

  • Ukuran dataset : 17.57 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_swap_tokenized

  • Deskripsi konfigurasi : Subset: label_swap tokenized: True

  • Ukuran dataset : 8.79 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 30.397

paws_wiki/labeled_swap_raw

  • Deskripsi konfigurasi : Subset: label_swap tokenized: False

  • Ukuran dataset : 8.60 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 30.397

paws_wiki/unlabeled_final_tokenized

  • Deskripsi konfigurasi : Subset: unlabeled_final tokenized: True

  • Ukuran dataset : 177.89 MiB

  • Auto-cached ( dokumentasi ): Ya (validasi), Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 645.652
'validation' 10.000