sci_tail

  • Mô tả :

Tập dữ liệu SciTail là một tập dữ liệu dự thi được tạo từ các bài kiểm tra khoa học trắc nghiệm và các câu trên web. Mỗi câu hỏi và lựa chọn câu trả lời đúng được chuyển thành một câu khẳng định để tạo thành giả thuyết. Việc truy xuất thông tin được sử dụng để lấy văn bản có liên quan từ một kho văn bản lớn gồm các câu trên web và những câu này được sử dụng làm tiền đề P. để tạo tập dữ liệu SciTail. Tập dữ liệu chứa 27.026 ví dụ với 10.101 ví dụ có nhãn kéo theo và 16.925 ví dụ với nhãn trung tính.

Tách ra Các ví dụ
'test' 2.126
'train' 23.097
'validation' 1.304
  • Cấu trúc tính năng :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
giả thuyết Chữ tf.string
nhãn mác ClassLabel tf.int64
tiền đề Chữ tf.string
  • Trích dẫn :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}