- Mô tả :
Tập dữ liệu mới gồm 7.787 câu hỏi khoa học trắc nghiệm cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trong việc trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thách thức và Tập hợp dễ dàng, trong đó tập dữ liệu trước đây chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán đồng xuất hiện từ. Chúng tôi cũng bao gồm kho ngữ liệu gồm hơn 14 triệu câu khoa học liên quan đến nhiệm vụ và triển khai ba mô hình cơ sở thần kinh cho tập dữ liệu này. Chúng tôi đặt ARC như một thách thức đối với cộng đồng.
So với tập dữ liệu ban đầu, tập dữ liệu này bổ sung các câu ngữ cảnh thu được thông qua truy xuất thông tin theo cách tương tự như UnifiedQA (xem: https://arxiv.org/abs/2005.00700 ).
Trang chủ : https://allenai.org/data/arc
Mã nguồn :
tfds.question_answering.Ai2ArcWithIR
Các phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
3.68 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Cấu trúc tính năng :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
'text': Text(shape=(), dtype=tf.string),
}),
'id': Text(shape=(), dtype=tf.string),
'paragraph': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
answerKey | ClassLabel | tf.int64 | ||
sự lựa chọn | Sự phối hợp | |||
sự lựa chọn / nhãn | ClassLabel | tf.int64 | ||
lựa chọn / văn bản | Chữ | tf.string | ||
Tôi | Chữ | tf.string | ||
đoạn văn | Chữ | tf.string | ||
câu hỏi | Chữ | tf.string |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir / ARC-Challenge-IR (cấu hình mặc định)
Mô tả cấu hình : Bộ thử thách gồm 2590 câu hỏi "khó" (những câu mà cả phương pháp truy xuất và phương pháp đồng xuất hiện đều không trả lời đúng)
Kích thước tập dữ liệu :
3.76 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
ai2_arc_with_ir / ARC-Easy-IR
Mô tả cấu hình : Bộ 5197 câu hỏi dễ dàng cho Thử thách ARC.
Kích thước tập dữ liệu :
7.49 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |