natural_questions

  • Deskripsi :

Korpus NQ berisi pertanyaan dari pengguna sebenarnya, dan membutuhkan sistem QA untuk membaca dan memahami seluruh artikel Wikipedia yang mungkin berisi atau tidak berisi jawaban atas pertanyaan tersebut. Dimasukkannya pertanyaan pengguna nyata, dan persyaratan bahwa solusi harus membaca seluruh halaman untuk menemukan jawabannya, menyebabkan NQ menjadi tugas yang lebih realistis dan menantang daripada kumpulan data QA sebelumnya.

Membelah Contoh
'train' 307.373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (konfigurasi default)

  • Deskripsi konfigurasi : Konfigurasi natural_questions default

  • Ukuran dataset : 90.26 GiB

  • Struktur fitur :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
anotasi Urutan
anotasi/id Tensor rangkaian
anotasi/jawaban_panjang fiturDict
annotations/long_answer/end_byte Tensor int64
annotations/long_answer/end_token Tensor int64
anotasi/jawaban_panjang/start_byte Tensor int64
annotations/long_answer/start_token Tensor int64
anotasi/jawaban_singkat Urutan
anotasi/jawaban_pendek/bit_akhir Tensor int64
anotasi/jawaban_pendek/token_akhir Tensor int64
anotasi/jawaban_pendek/start_byte Tensor int64
anotasi/jawaban_pendek/start_token Tensor int64
anotasi/jawaban_pendek/teks Teks rangkaian
anotasi/yes_no_answer LabelKelas int64
dokumen fiturDict
dokumen/html Teks rangkaian
judul dokumen Teks rangkaian
dokumen/token Urutan
dokumen/token/is_html Tensor bool
dokumen/token/token Teks rangkaian
dokumen/url Teks rangkaian
pengenal Tensor rangkaian
pertanyaan fiturDict
pertanyaan/teks Teks rangkaian
pertanyaan/token Urutan (Tensor) (Tidak ada,) rangkaian

natural_questions/longt5

  • Deskripsi konfigurasi : natural_questions diproses sebelumnya seperti pada tolok ukur longT5

  • Ukuran dataset : 8.91 GiB

  • Struktur fitur :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
semua_jawaban Urutan (Teks) (Tidak ada,) rangkaian
menjawab Teks rangkaian
konteks Teks rangkaian
pengenal Teks rangkaian
pertanyaan Teks rangkaian
judul Teks rangkaian