- Deskripsi :
Korpus NQ berisi pertanyaan dari pengguna sebenarnya, dan membutuhkan sistem QA untuk membaca dan memahami seluruh artikel Wikipedia yang mungkin berisi atau tidak berisi jawaban atas pertanyaan tersebut. Dimasukkannya pertanyaan pengguna nyata, dan persyaratan bahwa solusi harus membaca seluruh halaman untuk menemukan jawabannya, menyebabkan NQ menjadi tugas yang lebih realistis dan menantang daripada kumpulan data QA sebelumnya.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://ai.google.com/research/NaturalQuestions/dataset
Kode sumber :
tfds.datasets.natural_questions.Builder
Versi :
-
0.0.2
: Tidak ada catatan rilis. -
0.1.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
41.97 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 307.373 |
'validation' | 7.830 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (konfigurasi default)
Deskripsi konfigurasi : Konfigurasi natural_questions default
Ukuran dataset :
90.26 GiB
Struktur fitur :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
anotasi | Urutan | |||
anotasi/id | Tensor | rangkaian | ||
anotasi/jawaban_panjang | fiturDict | |||
annotations/long_answer/end_byte | Tensor | int64 | ||
annotations/long_answer/end_token | Tensor | int64 | ||
anotasi/jawaban_panjang/start_byte | Tensor | int64 | ||
annotations/long_answer/start_token | Tensor | int64 | ||
anotasi/jawaban_singkat | Urutan | |||
anotasi/jawaban_pendek/bit_akhir | Tensor | int64 | ||
anotasi/jawaban_pendek/token_akhir | Tensor | int64 | ||
anotasi/jawaban_pendek/start_byte | Tensor | int64 | ||
anotasi/jawaban_pendek/start_token | Tensor | int64 | ||
anotasi/jawaban_pendek/teks | Teks | rangkaian | ||
anotasi/yes_no_answer | LabelKelas | int64 | ||
dokumen | fiturDict | |||
dokumen/html | Teks | rangkaian | ||
judul dokumen | Teks | rangkaian | ||
dokumen/token | Urutan | |||
dokumen/token/is_html | Tensor | bool | ||
dokumen/token/token | Teks | rangkaian | ||
dokumen/url | Teks | rangkaian | ||
pengenal | Tensor | rangkaian | ||
pertanyaan | fiturDict | |||
pertanyaan/teks | Teks | rangkaian | ||
pertanyaan/token | Urutan (Tensor) | (Tidak ada,) | rangkaian |
- Contoh ( tfds.as_dataframe ):
natural_questions/longt5
Deskripsi konfigurasi : natural_questions diproses sebelumnya seperti pada tolok ukur longT5
Ukuran dataset :
8.91 GiB
Struktur fitur :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
semua_jawaban | Urutan (Teks) | (Tidak ada,) | rangkaian | |
menjawab | Teks | rangkaian | ||
konteks | Teks | rangkaian | ||
pengenal | Teks | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):