ทีม

  • คำอธิบาย :

Stanford Question Answering Dataset (SQuAD) คือชุดข้อมูลความเข้าใจในการอ่าน ซึ่งประกอบด้วยคำถามที่กลุ่มผู้ทำงานในกลุ่มโพสต์ชุดบทความวิกิพีเดียตั้งขึ้น โดยที่คำตอบของทุกคำถามคือส่วนของข้อความหรือช่วงจากข้อความการอ่านที่เกี่ยวข้อง หรือคำถาม อาจจะตอบไม่ได้

@article{2016arXiv160605250R,
       author
= { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 
Konstantin and {Liang}, Percy},
        title
= "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal
= {arXiv e-prints},
         year
= 2016,
          eid
= {arXiv:1606.05250},
        pages
= {arXiv:1606.05250},
archivePrefix
= {arXiv},
       eprint
= {1606.05250},
}

หมู่/v1.1 (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : เวอร์ชัน 1.1.0 ของ SQUAD

  • ขนาดการดาวน์โหลด : 33.51 MiB

  • ขนาดชุดข้อมูล : 94.06 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 87,599
'validation' 10,570
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ ลำดับ
คำตอบ/answer_start เทนเซอร์ int32
คำตอบ/ข้อความ ข้อความ สตริง
บริบท ข้อความ สตริง
รหัส เทนเซอร์ สตริง
คำถาม ข้อความ สตริง
ชื่อ ข้อความ สตริง

หมู่/v2.0

  • คำอธิบายการกำหนดค่า : เวอร์ชัน 2.0.0 ของ SQUAD

  • ขนาดการดาวน์โหลด : 44.34 MiB

  • ขนาดชุดข้อมูล : 148.54 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ใช่ (การตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 130,319
'validation' 11,873
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'is_impossible': bool,
   
'plausible_answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ ลำดับ
คำตอบ/answer_start เทนเซอร์ int32
คำตอบ/ข้อความ ข้อความ สตริง
บริบท ข้อความ สตริง
รหัส เทนเซอร์ สตริง
is_impossible เทนเซอร์ บูล
lausible_answers ลำดับ
plausible_answers/answer_start เทนเซอร์ int32
plausible_answers/ข้อความ ข้อความ สตริง
คำถาม ข้อความ สตริง
ชื่อ ข้อความ สตริง