sci_tail

  • توضیحات :

مجموعه داده SciTail یک مجموعه داده مستلزم ایجاد شده از آزمون های علوم چند گزینه ای و جملات وب است. هر سوال و پاسخ صحیح به یک عبارت قاطعانه برای تشکیل فرضیه تبدیل می شود. بازیابی اطلاعات برای به دست آوردن متن مرتبط از مجموعه متنی بزرگی از جملات وب استفاده می شود، و این جملات به عنوان مقدمه P استفاده می شود. حاشیه نویسی چنین جفت فرض-فرضیه به ترتیب به عنوان پشتیبان (مطلوب) یا نه (خنثی) جمع آوری می شود. برای ایجاد مجموعه داده SciTail. مجموعه داده شامل 27026 نمونه با 10101 نمونه با برچسب مستلزم و 16925 نمونه با برچسب خنثی است.

شکاف مثال ها
'test' 2,126
'train' 23,097
'validation' 1,304
  • ساختار ویژگی :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فرضیه متن رشته
برچسب ClassLabel int64
فرضیه متن رشته
  • نقل قول :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}