- Mô tả :
Tập dữ liệu SciTail là một tập dữ liệu dự thi được tạo từ các bài kiểm tra khoa học trắc nghiệm và các câu trên web. Mỗi câu hỏi và lựa chọn câu trả lời đúng được chuyển thành một câu khẳng định để tạo thành giả thuyết. Việc truy xuất thông tin được sử dụng để lấy văn bản có liên quan từ một kho văn bản lớn gồm các câu trên web và những câu này được sử dụng làm tiền đề P. để tạo tập dữ liệu SciTail. Tập dữ liệu chứa 27.026 ví dụ với 10.101 ví dụ có nhãn kéo theo và 16.925 ví dụ với nhãn trung tính.
Trang chủ : https://allenai.org/data/scitail
Mã nguồn :
tfds.text.scitail.SciTail
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
13.52 MiB
Kích thước tập dữ liệu :
6.01 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.126 |
'train' | 23.097 |
'validation' | 1.304 |
- Cấu trúc tính năng :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'premise': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
giả thuyết | Chữ | tf.string | ||
nhãn mác | ClassLabel | tf.int64 | ||
tiền đề | Chữ | tf.string |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}