- Deskripsi :
Stanford Question Answering Dataset (SQuAD) adalah kumpulan data pemahaman bacaan, terdiri dari pertanyaan yang diajukan oleh crowdworker pada serangkaian artikel Wikipedia, di mana jawaban untuk setiap pertanyaan adalah segmen teks, atau rentang, dari bagian bacaan yang sesuai, atau pertanyaan mungkin tidak terjawab.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.squad.Builder
Versi :
-
3.0.0
(default): Memperbaiki masalah dengan sejumlah kecil contoh (19) di mana rentang jawaban tidak selaras karena penghapusan spasi konteks.
-
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
skuad/v1.1 (konfigurasi default)
Deskripsi konfigurasi : SQUAD versi 1.1.0
Ukuran unduhan :
33.51 MiB
Ukuran dataset :
94.06 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 87.599 |
'validation' | 10.570 |
- Struktur fitur :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
jawaban | Urutan | |||
jawaban/jawaban_mulai | Tensor | int32 | ||
jawaban/teks | Teks | rangkaian | ||
konteks | Teks | rangkaian | ||
Indo | Tensor | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
skuad/v2.0
Deskripsi konfigurasi : SQUAD versi 2.0.0
Ukuran unduhan :
44.34 MiB
Ukuran dataset :
148.54 MiB
Auto-cached ( dokumentasi ): Ya (validasi), Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 130.319 |
'validation' | 11.873 |
- Struktur fitur :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
jawaban | Urutan | |||
jawaban/jawaban_mulai | Tensor | int32 | ||
jawaban/teks | Teks | rangkaian | ||
konteks | Teks | rangkaian | ||
Indo | Tensor | rangkaian | ||
adalah_tidak mungkin | Tensor | bool | ||
plausible_answers | Urutan | |||
plausible_answers/answer_start | Tensor | int32 | ||
plausible_answers/text | Teks | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):