sci_tail

  • คำอธิบาย :

ชุดข้อมูล SciTail เป็นชุดข้อมูลที่สร้างขึ้นจากข้อสอบวิทยาศาสตร์แบบปรนัยและประโยคบนเว็บ คำถามแต่ละข้อและตัวเลือกคำตอบที่ถูกต้องจะถูกแปลงเป็นประโยคยืนยันเพื่อสร้างสมมติฐาน การดึงข้อมูลมาใช้เพื่อให้ได้ข้อความที่เกี่ยวข้องจากคลังข้อความขนาดใหญ่ของประโยคบนเว็บ และประโยคเหล่านี้ถูกใช้เป็นสมมติฐาน P คำอธิบายประกอบของคู่สมมติฐาน-สมมติฐานดังกล่าวมีที่มาจากการสนับสนุน (entails) หรือไม่ (เป็นกลาง) ตามลำดับ เพื่อสร้างชุดข้อมูล SciTail ชุดข้อมูลประกอบด้วย 27,026 ตัวอย่าง โดยมี 10,101 ตัวอย่างที่มีป้ายกำกับที่เกี่ยวข้อง และ 16,925 ตัวอย่างที่มีป้ายกำกับที่เป็นกลาง

แยก ตัวอย่าง
'test' 2,126
'train' 23,097
'validation' 1,304
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}