- Deskripsi :
TriviaqQA adalah kumpulan data pemahaman bacaan yang berisi lebih dari 650 ribu pertanyaan-jawaban-bukti tiga kali lipat. TriviaqQA mencakup 95 ribu pasangan pertanyaan-jawaban yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, rata-rata enam per pertanyaan, yang memberikan pengawasan jarak jauh berkualitas tinggi untuk menjawab pertanyaan.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://nlp.cs.washington.edu/triviaqa/
Kode sumber :
tfds.datasets.trivia_qa.Builder
Versi :
-
1.1.0
(default): Tidak ada catatan rilis.
-
Struktur fitur :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
menjawab | fiturDict | |||
jawaban/alias | Urutan (Teks) | (Tidak ada,) | rangkaian | |
answer/matched_wiki_entity_name | Teks | rangkaian | ||
answer/normalized_aliases | Urutan (Teks) | (Tidak ada,) | rangkaian | |
jawaban/normalized_matched_wiki_entity_name | Teks | rangkaian | ||
jawaban/nilai_normalisasi | Teks | rangkaian | ||
jawaban/jenis | Teks | rangkaian | ||
jawaban/nilai | Teks | rangkaian | ||
entitas_halaman | Urutan | |||
entitas_halaman/doc_source | Teks | rangkaian | ||
entitas_halaman/nama file | Teks | rangkaian | ||
entitas_halaman/judul | Teks | rangkaian | ||
entitas_halaman/wiki_context | Teks | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
id_pertanyaan | Teks | rangkaian | ||
question_source | Teks | rangkaian | ||
Hasil Pencarian | Urutan | |||
hasil_penelusuran/deskripsi | Teks | rangkaian | ||
search_results/namafile | Teks | rangkaian | ||
hasil_penelusuran/peringkat | Tensor | int32 | ||
search_results/search_context | Teks | rangkaian | ||
search_results/title | Teks | rangkaian | ||
search_results/url | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (konfigurasi default)
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
2.48 GiB
Ukuran dataset :
14.99 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban.
Ukuran unduhan :
2.48 GiB
Ukuran dataset :
196.84 MiB
Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/tanpa filter
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
3.07 GiB
Ukuran dataset :
27.27 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR.
Ukuran unduhan :
603.25 MiB
Ukuran dataset :
119.78 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):
- Deskripsi :
TriviaqQA adalah kumpulan data pemahaman bacaan yang berisi lebih dari 650 ribu pertanyaan-jawaban-bukti tiga kali lipat. TriviaqQA mencakup 95 ribu pasangan pertanyaan-jawaban yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, rata-rata enam per pertanyaan, yang memberikan pengawasan jarak jauh berkualitas tinggi untuk menjawab pertanyaan.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://nlp.cs.washington.edu/triviaqa/
Kode sumber :
tfds.datasets.trivia_qa.Builder
Versi :
-
1.1.0
(default): Tidak ada catatan rilis.
-
Struktur fitur :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
menjawab | fiturDict | |||
jawaban/alias | Urutan (Teks) | (Tidak ada,) | rangkaian | |
answer/matched_wiki_entity_name | Teks | rangkaian | ||
answer/normalized_aliases | Urutan (Teks) | (Tidak ada,) | rangkaian | |
jawaban/normalized_matched_wiki_entity_name | Teks | rangkaian | ||
jawaban/nilai_normalisasi | Teks | rangkaian | ||
jawaban/jenis | Teks | rangkaian | ||
jawaban/nilai | Teks | rangkaian | ||
entitas_halaman | Urutan | |||
entitas_halaman/doc_source | Teks | rangkaian | ||
entitas_halaman/nama file | Teks | rangkaian | ||
entitas_halaman/judul | Teks | rangkaian | ||
entitas_halaman/wiki_context | Teks | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
id_pertanyaan | Teks | rangkaian | ||
question_source | Teks | rangkaian | ||
Hasil Pencarian | Urutan | |||
hasil_penelusuran/deskripsi | Teks | rangkaian | ||
search_results/namafile | Teks | rangkaian | ||
hasil_penelusuran/peringkat | Tensor | int32 | ||
search_results/search_context | Teks | rangkaian | ||
search_results/title | Teks | rangkaian | ||
search_results/url | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (konfigurasi default)
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
2.48 GiB
Ukuran dataset :
14.99 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban.
Ukuran unduhan :
2.48 GiB
Ukuran dataset :
196.84 MiB
Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/tanpa filter
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
3.07 GiB
Ukuran dataset :
27.27 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR.
Ukuran unduhan :
603.25 MiB
Ukuran dataset :
119.78 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):