- Mô tả:
Các bộ dữ liệu nhận dạng diễn giải hiện tại thiếu các cặp câu có độ trùng lặp từ vựng cao mà không được diễn giải. Các mô hình được đào tạo dựa trên dữ liệu như vậy không phân biệt được các cặp như chuyến bay từ New York đến Florida và chuyến bay từ Florida đến New York. Tập dữ liệu này chứa 108.463 cặp được gắn nhãn người và 656 nghìn cặp được gắn nhãn ồn ào thể hiện tầm quan trọng của cấu trúc mô hình hóa, ngữ cảnh và thông tin thứ tự từ đối với vấn đề nhận dạng diễn giải.
Để biết thêm chi tiết, xem giấy đi kèm: PAWS: diễn giải các đối thủ từ Word Scrambling tại https://arxiv.org/abs/1904.01130
Kho tài liệu này chứa các cặp được tạo từ các trang Wikipedia, chứa các cặp được tạo từ cả phương pháp hoán đổi từ và dịch ngược. Tất cả các cặp đều có những đánh giá của con người về cả cách diễn đạt và độ trôi chảy và chúng được chia thành các phần Luyện tập / Phát triển / Kiểm tra.
Tất cả các tệp đều ở định dạng tsv với bốn cột:
id Một id duy nhất cho mỗi cặp câu1 Câu đầu tiên2 Câu thứ hai (ồn ào) nhãn (Ồn ào) cho mỗi cặp
Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.
Source code:
tfds.text.PawsWiki
phiên bản:
-
1.0.0
: Phiên bản ban đầu. -
1.1.0
(mặc định): Thêm configs để tập hợp con khác nhau và văn bản thô hỗ trợ.
-
Dung lượng tải về:
57.47 MiB
Các tính năng:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn:
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki / labeled_final_tokenized (mặc định config)
Config mô tả: tập hợp con: labeled_final tokenized: Đúng
Dataset kích thước:
17.96 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki / labeled_final_raw
Config mô tả: tập hợp con: labeled_final tokenized: False
Dataset kích thước:
17.57 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki / labeled_swap_tokenized
Config mô tả: tập hợp con: labeled_swap tokenized: Đúng
Dataset kích thước:
8.79 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 30.397 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki / labeled_swap_raw
Config mô tả: tập hợp con: labeled_swap tokenized: False
Dataset kích thước:
8.60 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 30.397 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki / unlabeled_final_tokenized
Config mô tả: tập hợp con: unlabeled_final tokenized: Đúng
Dataset kích thước:
177.89 MiB
Tự động lưu trữ ( tài liệu ): Có (xác nhận), Chỉ khi
shuffle_files=False
(tàu)tách:
Tách ra | Các ví dụ |
---|---|
'train' | 645,652 |
'validation' | 10.000 |
- Ví dụ ( tfds.as_dataframe ):