pasukan

  • Deskripsi :

Stanford Question Answering Dataset (SQuAD) adalah kumpulan data pemahaman bacaan, terdiri dari pertanyaan yang diajukan oleh crowdworker pada serangkaian artikel Wikipedia, di mana jawaban untuk setiap pertanyaan adalah segmen teks, atau rentang, dari bagian bacaan yang sesuai, atau pertanyaan mungkin tidak terjawab.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

skuad/v1.1 (konfigurasi default)

  • Deskripsi konfigurasi : SQUAD versi 1.1.0

  • Ukuran unduhan : 33.51 MiB

  • Ukuran dataset : 94.06 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 87.599
'validation' 10.570
  • Struktur fitur :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
jawaban Urutan
jawaban/jawaban_mulai Tensor int32
jawaban/teks Teks rangkaian
konteks Teks rangkaian
Indo Tensor rangkaian
pertanyaan Teks rangkaian
judul Teks rangkaian

skuad/v2.0

  • Deskripsi konfigurasi : SQUAD versi 2.0.0

  • Ukuran unduhan : 44.34 MiB

  • Ukuran dataset : 148.54 MiB

  • Auto-cached ( dokumentasi ): Ya (validasi), Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 130.319
'validation' 11.873
  • Struktur fitur :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'is_impossible': bool,
    'plausible_answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
jawaban Urutan
jawaban/jawaban_mulai Tensor int32
jawaban/teks Teks rangkaian
konteks Teks rangkaian
Indo Tensor rangkaian
adalah_tidak mungkin Tensor bool
plausible_answers Urutan
plausible_answers/answer_start Tensor int32
plausible_answers/text Teks rangkaian
pertanyaan Teks rangkaian
judul Teks rangkaian