paws_wiki

  • Mô tả:

Các bộ dữ liệu nhận dạng diễn giải hiện tại thiếu các cặp câu có độ trùng lặp từ vựng cao mà không được diễn giải. Các mô hình được đào tạo dựa trên dữ liệu như vậy không phân biệt được các cặp như chuyến bay từ New York đến Florida và chuyến bay từ Florida đến New York. Tập dữ liệu này chứa 108.463 cặp được gắn nhãn người và 656 nghìn cặp được gắn nhãn ồn ào thể hiện tầm quan trọng của cấu trúc mô hình hóa, ngữ cảnh và thông tin thứ tự từ đối với vấn đề nhận dạng diễn giải.

Để biết thêm chi tiết, xem giấy đi kèm: PAWS: diễn giải các đối thủ từ Word Scrambling tại https://arxiv.org/abs/1904.01130

Kho tài liệu này chứa các cặp được tạo từ các trang Wikipedia, chứa các cặp được tạo từ cả phương pháp hoán đổi từ và dịch ngược. Tất cả các cặp đều có những đánh giá của con người về cả cách diễn đạt và độ trôi chảy và chúng được chia thành các phần Luyện tập / Phát triển / Kiểm tra.

Tất cả các tệp đều ở định dạng tsv với bốn cột:

id Một id duy nhất cho mỗi cặp câu1 Câu đầu tiên2 Câu thứ hai (ồn ào) nhãn (Ồn ào) cho mỗi cặp

Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (mặc định config)

  • Config mô tả: tập hợp con: labeled_final tokenized: Đúng

  • Dataset kích thước: 17.96 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki / labeled_final_raw

  • Config mô tả: tập hợp con: labeled_final tokenized: False

  • Dataset kích thước: 17.57 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki / labeled_swap_tokenized

  • Config mô tả: tập hợp con: labeled_swap tokenized: Đúng

  • Dataset kích thước: 8.79 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'train' 30.397

paws_wiki / labeled_swap_raw

  • Config mô tả: tập hợp con: labeled_swap tokenized: False

  • Dataset kích thước: 8.60 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'train' 30.397

paws_wiki / unlabeled_final_tokenized

  • Config mô tả: tập hợp con: unlabeled_final tokenized: Đúng

  • Dataset kích thước: 177.89 MiB

  • Tự động lưu trữ ( tài liệu ): Có (xác nhận), Chỉ khi shuffle_files=False (tàu)

  • tách:

Tách ra Các ví dụ
'train' 645,652
'validation' 10.000