trivia_qa

  • Deskripsi :

TriviaqQA adalah kumpulan data pemahaman bacaan yang berisi lebih dari 650 ribu pertanyaan-jawaban-bukti tiga kali lipat. TriviaqQA mencakup 95 ribu pasangan pertanyaan-jawaban yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, rata-rata enam per pertanyaan, yang memberikan pengawasan jarak jauh berkualitas tinggi untuk menjawab pertanyaan.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
menjawab fiturDict
jawaban/alias Urutan (Teks) (Tidak ada,) rangkaian
answer/matched_wiki_entity_name Teks rangkaian
answer/normalized_aliases Urutan (Teks) (Tidak ada,) rangkaian
jawaban/normalized_matched_wiki_entity_name Teks rangkaian
jawaban/nilai_normalisasi Teks rangkaian
jawaban/jenis Teks rangkaian
jawaban/nilai Teks rangkaian
entitas_halaman Urutan
entitas_halaman/doc_source Teks rangkaian
entitas_halaman/nama file Teks rangkaian
entitas_halaman/judul Teks rangkaian
entitas_halaman/wiki_context Teks rangkaian
pertanyaan Teks rangkaian
id_pertanyaan Teks rangkaian
question_source Teks rangkaian
Hasil Pencarian Urutan
hasil_penelusuran/deskripsi Teks rangkaian
search_results/namafile Teks rangkaian
hasil_penelusuran/peringkat Tensor int32
search_results/search_context Teks rangkaian
search_results/title Teks rangkaian
search_results/url Teks rangkaian
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (konfigurasi default)

  • Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban. Termasuk konteks dari Wikipedia dan hasil pencarian.

  • Ukuran unduhan : 2.48 GiB

  • Ukuran dataset : 14.99 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/rc.nocontext

  • Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban.

  • Ukuran unduhan : 2.48 GiB

  • Ukuran dataset : 196.84 MiB

  • Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/tanpa filter

  • Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR. Termasuk konteks dari Wikipedia dan hasil pencarian.

  • Ukuran unduhan : 3.07 GiB

  • Ukuran dataset : 27.27 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 10.832
'train' 87.622
'validation' 11.313

trivia_qa/unfiltered.nocontext

  • Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR.

  • Ukuran unduhan : 603.25 MiB

  • Ukuran dataset : 119.78 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 10.832
'train' 87.622
'validation' 11.313
,

  • Deskripsi :

TriviaqQA adalah kumpulan data pemahaman bacaan yang berisi lebih dari 650 ribu pertanyaan-jawaban-bukti tiga kali lipat. TriviaqQA mencakup 95 ribu pasangan pertanyaan-jawaban yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, rata-rata enam per pertanyaan, yang memberikan pengawasan jarak jauh berkualitas tinggi untuk menjawab pertanyaan.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
menjawab fiturDict
jawaban/alias Urutan (Teks) (Tidak ada,) rangkaian
answer/matched_wiki_entity_name Teks rangkaian
answer/normalized_aliases Urutan (Teks) (Tidak ada,) rangkaian
jawaban/normalized_matched_wiki_entity_name Teks rangkaian
jawaban/nilai_normalisasi Teks rangkaian
jawaban/jenis Teks rangkaian
jawaban/nilai Teks rangkaian
entitas_halaman Urutan
entitas_halaman/doc_source Teks rangkaian
entitas_halaman/nama file Teks rangkaian
entitas_halaman/judul Teks rangkaian
entitas_halaman/wiki_context Teks rangkaian
pertanyaan Teks rangkaian
id_pertanyaan Teks rangkaian
question_source Teks rangkaian
Hasil Pencarian Urutan
hasil_penelusuran/deskripsi Teks rangkaian
search_results/namafile Teks rangkaian
hasil_penelusuran/peringkat Tensor int32
search_results/search_context Teks rangkaian
search_results/title Teks rangkaian
search_results/url Teks rangkaian
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (konfigurasi default)

  • Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban. Termasuk konteks dari Wikipedia dan hasil pencarian.

  • Ukuran unduhan : 2.48 GiB

  • Ukuran dataset : 14.99 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/rc.nocontext

  • Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban.

  • Ukuran unduhan : 2.48 GiB

  • Ukuran dataset : 196.84 MiB

  • Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/tanpa filter

  • Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR. Termasuk konteks dari Wikipedia dan hasil pencarian.

  • Ukuran unduhan : 3.07 GiB

  • Ukuran dataset : 27.27 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 10.832
'train' 87.622
'validation' 11.313

trivia_qa/unfiltered.nocontext

  • Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR.

  • Ukuran unduhan : 603.25 MiB

  • Ukuran dataset : 119.78 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 10.832
'train' 87.622
'validation' 11.313