paws_x_wiki

  • Mô tả :

Bộ dữ liệu này chứa 23.659 cặp đánh giá PAWS được dịch bởi con người và 296.406 cặp đào tạo được dịch bằng máy trong sáu ngôn ngữ khác biệt về mặt chính tả:

  • người Pháp
  • người Tây Ban Nha
  • tiếng Đức
  • người Trung Quốc
  • tiếng Nhật
  • Hàn Quốc

Để biết thêm chi tiết, hãy xem bài báo đi kèm: PAWS-X: Bộ dữ liệu đối thủ đa ngôn ngữ để nhận dạng cụm từ diễn giải tại https://arxiv.org/abs/1908.11828

Tương tự như Bộ dữ liệu PAWS, các ví dụ được chia thành các phần Đào tạo/Phát triển/Thử nghiệm. Tất cả các tệp đều ở định dạng tsv với bốn cột:

  1. id : Một id duy nhất cho mỗi cặp.
  2. sentence1 : Câu đầu tiên.
  3. sentence2 : Câu thứ hai.
  4. (noisy_)label : nhãn (Noisy) cho mỗi cặp.

Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhãn mác LớpNhãn int64
câu1 Chữ sợi dây
câu2 Chữ sợi dây
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (cấu hình mặc định)

  • Mô tả cấu hình : Được dịch sang de

  • Kích thước tập dữ liệu : 15.27 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki/vi

  • Mô tả cấu hình : Được dịch sang en

  • Kích thước tập dữ liệu : 14.59 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 49,175
'validation' 2.000

paws_x_wiki/es

  • Mô tả cấu hình : Được dịch sang es

  • Kích thước tập dữ liệu : 15.27 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 49,401
'validation' 1.961

paws_x_wiki/fr

  • Mô tả cấu hình : Được dịch sang fr

  • Kích thước tập dữ liệu : 15.79 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 49,399
'validation' 1.988

paws_x_wiki/ja

  • Mô tả cấu hình : Đã dịch sang ja

  • Kích thước tập dữ liệu : 17.77 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 49,401
'validation' 2.000

paws_x_wiki/ko

  • Mô tả cấu hình : Đã dịch sang ko

  • Kích thước tập dữ liệu : 16.42 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.999
'train' 49,164
'validation' 2.000

paws_x_wiki/zh

  • Mô tả cấu hình : Đã dịch sang zh

  • Kích thước tập dữ liệu : 13.20 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 49,401
'validation' 2.000