paws_wiki

  • Mô tả :

Bộ dữ liệu nhận dạng cụm từ diễn giải hiện tại thiếu các cặp câu có độ trùng lặp từ vựng cao mà không phải là cụm từ diễn giải. Các mô hình được đào tạo dựa trên dữ liệu đó không phân biệt được các cặp như chuyến bay từ New York đến Florida và chuyến bay từ Florida đến New York. Bộ dữ liệu này chứa 108.463 cặp được gắn nhãn con người và 656 nghìn cặp được dán nhãn ồn ào thể hiện tầm quan trọng của cấu trúc mô hình hóa, ngữ cảnh và thông tin thứ tự từ đối với vấn đề nhận dạng cụm từ diễn giải.

Để biết thêm chi tiết, hãy xem bài báo đi kèm: PAWS: Paraphrase Adversaries from Word Scrambling tại https://arxiv.org/abs/1904.01130

Kho ngữ liệu này chứa các cặp được tạo ra từ các trang Wikipedia, chứa các cặp được tạo ra từ cả hai phương pháp hoán đổi từ và dịch ngược. Tất cả các cặp đều có đánh giá của con người về cả diễn giải và mức độ trôi chảy và chúng được chia thành các phần Đào tạo/Phát triển/Kiểm tra.

Tất cả các tệp đều ở định dạng tsv với bốn cột:

  1. id : Một id duy nhất cho mỗi cặp.
  2. sentence1 : Câu đầu tiên.
  3. sentence2 : Câu thứ hai.
  4. (noisy_)label : nhãn (Noisy) cho mỗi cặp.

Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
nhãn mác LớpNhãn int64
câu1 Chữ chuỗi
câu2 Chữ chuỗi
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (cấu hình mặc định)

  • Mô tả cấu hình : Tập hợp con: có nhãn_cuối cùng được mã hóa: Đúng

  • Kích thước tập dữ liệu : 17.96 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 8.000
'train' 49,401
'validation' 8.000

paws_wiki/được gắn nhãn_final_raw

  • Mô tả cấu hình : Tập hợp con: có nhãn_cuối cùng được mã hóa: Sai

  • Kích thước tập dữ liệu : 17.57 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 8.000
'train' 49,401
'validation' 8.000

paws_wiki/được gắn nhãn_swap_tokenized

  • Mô tả cấu hình : Tập hợp con: nhãn_swap được mã hóa: Đúng

  • Kích thước tập dữ liệu : 8.79 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 30,397

paws_wiki/được gắn nhãn_swap_raw

  • Mô tả cấu hình : Tập hợp con: nhãn_swap được mã hóa: Sai

  • Kích thước tập dữ liệu : 8.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • Mô tả cấu hình : Tập hợp con: unlabeled_final tokenized: True

  • Kích thước tập dữ liệu : 177.89 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 645,652
'validation' 10.000