- Açıklama :
Stanford Question Answering Dataset (SQuAD), her sorunun cevabının ilgili okuma pasajından veya sorudan bir metin parçası veya aralığı olduğu bir dizi Wikipedia makalesinde kalabalık çalışanlar tarafından yöneltilen sorulardan oluşan bir okuduğunu anlama veri kümesidir. cevapsız olabilir.
Ek Belgeler : Belgeleri Keşfedin
Ana sayfa : https://rajpurkar.github.io/SQuAD-explorer/
Kaynak kodu :
tfds.datasets.squad.Buildersürümler :
-
3.0.0(varsayılan): Bağlamdaki boşlukların kaldırılması nedeniyle yanıt aralıklarının yanlış hizalandığı az sayıda örnekle (19) ilgili sorunu düzeltir.
-
Denetlenen anahtarlar (Bkz
as_superviseddoc ):NoneŞekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
Squad/v1.1 (varsayılan yapılandırma)
Yapılandırma açıklaması : SQUAD Sürüm 1.1.0
İndirme boyutu :
33.51 MiBVeri kümesi boyutu :
94.06 MiBOtomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
| Bölmek | örnekler |
|---|---|
'train' | 87.599 |
'validation' | 10.570 |
- Özellik yapısı :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Açıklama |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| Yanıtlar | Sıra | |||
| cevaplar/cevap_başlangıç | tensör | int32 | ||
| cevaplar/metin | Metin | sicim | ||
| bağlam | Metin | sicim | ||
| İD | tensör | sicim | ||
| soru | Metin | sicim | ||
| Başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
takım/v2.0
Yapılandırma açıklaması : SQUAD'in 2.0.0 sürümü
İndirme boyutu :
44.34 MiBVeri kümesi boyutu :
148.54 MiBOtomatik önbelleğe alınmış ( belgeleme ): Evet (doğrulama), Yalnızca
shuffle_files=False(tren) olduğundabölmeler :
| Bölmek | örnekler |
|---|---|
'train' | 130.319 |
'validation' | 11.873 |
- Özellik yapısı :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Açıklama |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| Yanıtlar | Sıra | |||
| cevaplar/cevap_başlangıç | tensör | int32 | ||
| cevaplar/metin | Metin | sicim | ||
| bağlam | Metin | sicim | ||
| İD | tensör | sicim | ||
| imkansız | tensör | bool | ||
| makul_cevaplar | Sıra | |||
| makul_cevaplar/answer_start | tensör | int32 | ||
| makul_cevaplar/metin | Metin | sicim | ||
| soru | Metin | sicim | ||
| Başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):