- توضیحات :
مجموعه داده SciTail یک مجموعه داده مستلزم ایجاد شده از آزمون های علوم چند گزینه ای و جملات وب است. هر سوال و پاسخ صحیح به یک عبارت قاطعانه برای تشکیل فرضیه تبدیل می شود. بازیابی اطلاعات برای به دست آوردن متن مرتبط از مجموعه متنی بزرگی از جملات وب استفاده می شود، و این جملات به عنوان مقدمه P استفاده می شود. حاشیه نویسی چنین جفت فرض-فرضیه به ترتیب به عنوان پشتیبان (مطلوب) یا نه (خنثی) جمع آوری می شود. برای ایجاد مجموعه داده SciTail. مجموعه داده شامل 27026 نمونه با 10101 نمونه با برچسب مستلزم و 16925 نمونه با برچسب خنثی است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://allenai.org/data/scitail
کد منبع :
tfds.datasets.sci_tail.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
13.52 MiB
حجم مجموعه داده :
6.01 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2,126 |
'train' | 23,097 |
'validation' | 1,304 |
- ساختار ویژگی :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فرضیه | متن | رشته | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}