mctaco

  • Mô tả :

MC-TACO là một bộ dữ liệu gồm 13 nghìn cặp câu hỏi-câu trả lời yêu cầu khả năng hiểu thông thường theo thời gian. Tập dữ liệu chứa năm thuộc tính tạm thời:

  1. thời lượng (sự kiện diễn ra trong bao lâu)
  2. trật tự thời gian (thứ tự điển hình của các sự kiện)
  3. thời gian điển hình (khi một sự kiện xảy ra)
  4. tần suất (tần suất một sự kiện xảy ra)
  5. trạng thái dừng (cho dù trạng thái được duy trì trong một thời gian rất dài hay vô thời hạn)

Chúng tôi hy vọng rằng bộ dữ liệu này có thể thúc đẩy việc khám phá trong tương lai loại vấn đề lý luận cụ thể này.

Tách ra ví dụ
'test' 9,442
'validation' 3,783
  • Cấu trúc tính năng :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'category': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
trả lời Chữ sợi dây
loại LớpNhãn int64
nhãn LớpNhãn int64
câu hỏi Chữ sợi dây
câu Chữ sợi dây
  • trích dẫn :
@inproceedings{ZKNR19,
    author = {Ben Zhou, Daniel Khashabi, Qiang Ning and Dan Roth},
    title = {"Going on a vacation" takes longer than "Going for a walk": A Study of Temporal Commonsense Understanding },
    booktitle = {EMNLP},
    year = {2019},
}