paws_x_wiki

 • Mô tả :

Bộ dữ liệu này chứa 23.659 cặp đánh giá PAWS do người dịch và 296.406 cặp đào tạo được dịch bằng máy trong sáu ngôn ngữ khác biệt về kiểu chữ:

 • người Pháp
 • người Tây Ban Nha
 • tiếng Đức
 • người Trung Quốc
 • tiếng Nhật
 • Hàn Quốc

Để biết thêm chi tiết, hãy xem bài báo kèm theo: PAWS-X: Tập dữ liệu đối phương đa ngôn ngữ để nhận dạng diễn đạt tại https://arxiv.org/abs/1908.11828

Tương tự như PAWS Dataset, các ví dụ được chia thành các phần Train / Dev / Test. Tất cả các tệp đều ở định dạng tsv với bốn cột:

id Một id duy nhất cho mỗi cặp câu1 Câu đầu tiên2 Câu thứ hai (ồn ào_) nhãn (Ồn ào) cho mỗi cặp

Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp là một cách diễn giải.

FeaturesDict({
  'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
  'sentence1': Text(shape=(), dtype=tf.string),
  'sentence2': Text(shape=(), dtype=tf.string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
nhãn mác ClassLabel tf.int64
câu1 Chữ tf.string
câu2 Chữ tf.string
@InProceedings{pawsx2019emnlp,
 title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
 author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
 booktitle = {Proc. of EMNLP},
 year = {2019}
}

paws_x_wiki / de (cấu hình mặc định)

 • Mô tả cấu hình : Đã dịch sang de

 • Kích thước tập dữ liệu : 15.27 MiB

 • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki / vi

 • Mô tả cấu hình : Đã dịch sang en

 • Kích thước tập dữ liệu : 14.59 MiB

 • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki / es

 • Mô tả cấu hình : Đã dịch sang es

 • Kích thước tập dữ liệu : 15.27 MiB

 • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.401
'validation' 1.961

paws_x_wiki / fr

 • Mô tả cấu hình : Đã dịch sang fr

 • Kích thước tập dữ liệu : 15.79 MiB

 • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki / ja

 • Mô tả cấu hình : Đã dịch sang ja

 • Kích thước tập dữ liệu : 17.77 MiB

 • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.401
'validation' 2.000

paws_x_wiki / ko

 • Mô tả cấu hình : Đã dịch sang ko

 • Kích thước tập dữ liệu : 16.42 MiB

 • Tách :

Tách ra Các ví dụ
'test' 1.999
'train' 49.164
'validation' 2.000

paws_x_wiki / zh

 • Mô tả cấu hình : Đã dịch sang zh

 • Kích thước tập dữ liệu : 13.20 MiB

 • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.401
'validation' 2.000