paws_x_wiki

  • Mô tả :

Bộ dữ liệu này chứa 23.659 cặp đánh giá PAWS do người dịch và 296.406 cặp đào tạo được dịch bằng máy trong sáu ngôn ngữ khác biệt về kiểu chữ:

  • người Pháp
  • người Tây Ban Nha
  • tiếng Đức
  • người Trung Quốc
  • tiếng Nhật
  • Hàn Quốc

Để biết thêm chi tiết, hãy xem bài báo kèm theo: PAWS-X: Tập dữ liệu đối phương đa ngôn ngữ để nhận dạng diễn đạt tại https://arxiv.org/abs/1908.11828

Tương tự như PAWS Dataset, các ví dụ được chia thành các phần Train / Dev / Test. Tất cả các tệp đều ở định dạng tsv với bốn cột:

id Một id duy nhất cho mỗi cặp câu1 Câu đầu tiên2 Câu thứ hai (ồn ào_) nhãn (Ồn ào) cho mỗi cặp

Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp là một cách diễn giải.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
nhãn mác ClassLabel tf.int64
câu1 Chữ tf.string
câu2 Chữ tf.string
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (cấu hình mặc định)

  • Mô tả cấu hình : Đã dịch sang de

  • Kích thước tập dữ liệu : 15.27 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki / vi

  • Mô tả cấu hình : Đã dịch sang en

  • Kích thước tập dữ liệu : 14.59 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki / es

  • Mô tả cấu hình : Đã dịch sang es

  • Kích thước tập dữ liệu : 15.27 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.401
'validation' 1.961

paws_x_wiki / fr

  • Mô tả cấu hình : Đã dịch sang fr

  • Kích thước tập dữ liệu : 15.79 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki / ja

  • Mô tả cấu hình : Đã dịch sang ja

  • Kích thước tập dữ liệu : 17.77 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.401
'validation' 2.000

paws_x_wiki / ko

  • Mô tả cấu hình : Đã dịch sang ko

  • Kích thước tập dữ liệu : 16.42 MiB

  • Tách :

Tách ra Các ví dụ
'test' 1.999
'train' 49.164
'validation' 2.000

paws_x_wiki / zh

  • Mô tả cấu hình : Đã dịch sang zh

  • Kích thước tập dữ liệu : 13.20 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 49.401
'validation' 2.000