فريق

  • الوصف :

مجموعة بيانات ستانفورد للإجابة على الأسئلة (SQuAD) هي مجموعة بيانات لفهم القراءة ، تتكون من أسئلة يطرحها العاملون في الحشود على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن جزء من النص ، أو امتداد ، من فقرة القراءة المقابلة ، أو السؤال قد يكون غير قابل للإجابة.

@article{2016arXiv160605250R,
       author
= { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 
Konstantin and {Liang}, Percy},
        title
= "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal
= {arXiv e-prints},
         year
= 2016,
          eid
= {arXiv:1606.05250},
        pages
= {arXiv:1606.05250},
archivePrefix
= {arXiv},
       eprint
= {1606.05250},
}

فرقة / v1.1 (التكوين الافتراضي)

  • وصف التكوين : الإصدار 1.1.0 من SQUAD

  • حجم التحميل : 33.51 MiB

  • حجم مجموعة البيانات : 94.06 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 87599
'validation' 10570
  • هيكل الميزة :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الإجابات تسلسل
الإجابات / answer_start موتر int32
الإجابات / النص نص سلسلة
سياق الكلام نص سلسلة
هوية شخصية موتر سلسلة
سؤال نص سلسلة
لقب نص سلسلة

فرقة / v2.0

  • وصف التكوين : الإصدار 2.0.0 من SQUAD

  • حجم التحميل : 44.34 MiB

  • حجم مجموعة البيانات : 148.54 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 130319
'validation' 11873
  • هيكل الميزة :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'is_impossible': bool,
   
'plausible_answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الإجابات تسلسل
الإجابات / answer_start موتر int32
الإجابات / النص نص سلسلة
سياق الكلام نص سلسلة
هوية شخصية موتر سلسلة
غير ممكن موتر منطقي
أجوبة معقولة تسلسل
plausible_answers / answer_start موتر int32
الجواب_المعقول / النص نص سلسلة
سؤال نص سلسلة
لقب نص سلسلة