- Mô tả :
Bộ dữ liệu này chứa 23.659 cặp đánh giá PAWS được dịch bởi con người và 296.406 cặp đào tạo được dịch bằng máy trong sáu ngôn ngữ khác biệt về mặt chính tả:
- người Pháp
- người Tây Ban Nha
- tiếng Đức
- người Trung Quốc
- tiếng Nhật
- Hàn Quốc
Để biết thêm chi tiết, hãy xem bài báo đi kèm: PAWS-X: Bộ dữ liệu đối thủ đa ngôn ngữ để nhận dạng cụm từ diễn giải tại https://arxiv.org/abs/1908.11828
Tương tự như Bộ dữ liệu PAWS, các ví dụ được chia thành các phần Đào tạo/Phát triển/Thử nghiệm. Tất cả các tệp đều ở định dạng tsv với bốn cột:
-
id
: Một id duy nhất cho mỗi cặp. -
sentence1
: Câu đầu tiên. -
sentence2
: Câu thứ hai. -
(noisy_)label
: nhãn (Noisy) cho mỗi cặp.
Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research-datasets/paws/tree/master/pawsx
Mã nguồn :
tfds.datasets.paws_x_wiki.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
28.88 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn mác | LớpNhãn | int64 | ||
câu1 | Chữ | sợi dây | ||
câu2 | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (cấu hình mặc định)
Mô tả cấu hình : Được dịch sang de
Kích thước tập dữ liệu :
15.27 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_x_wiki/vi
Mô tả cấu hình : Được dịch sang en
Kích thước tập dữ liệu :
14.59 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 49,175 |
'validation' | 2.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_x_wiki/es
Mô tả cấu hình : Được dịch sang es
Kích thước tập dữ liệu :
15.27 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 49,401 |
'validation' | 1.961 |
- Ví dụ ( tfds.as_dataframe ):
paws_x_wiki/fr
Mô tả cấu hình : Được dịch sang fr
Kích thước tập dữ liệu :
15.79 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 49,399 |
'validation' | 1.988 |
- Ví dụ ( tfds.as_dataframe ):
paws_x_wiki/ja
Mô tả cấu hình : Đã dịch sang ja
Kích thước tập dữ liệu :
17.77 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 49,401 |
'validation' | 2.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_x_wiki/ko
Mô tả cấu hình : Đã dịch sang ko
Kích thước tập dữ liệu :
16.42 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.999 |
'train' | 49,164 |
'validation' | 2.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_x_wiki/zh
Mô tả cấu hình : Đã dịch sang zh
Kích thước tập dữ liệu :
13.20 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 49,401 |
'validation' | 2.000 |
- Ví dụ ( tfds.as_dataframe ):