- Deskripsi :
ASQA adalah kumpulan data penjawab pertanyaan bentuk panjang pertama yang berfokus pada pertanyaan factoid yang ambigu. Berbeda dari kumpulan data jawaban bentuk panjang sebelumnya, setiap pertanyaan dianotasi dengan jawaban bentuk panjang dan pasangan pertanyaan-jawaban ekstraktif, yang harus dapat dijawab oleh bagian yang dihasilkan. Jawaban bentuk panjang yang dihasilkan akan dievaluasi menggunakan akurasi ROUGE dan QA. Kami menunjukkan bahwa metrik evaluasi ini berkorelasi dengan baik dengan penilaian manusia. Dalam repositori ini kami merilis kumpulan data ASQA, bersama dengan kode evaluasi: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Beranda : https://github.com/google-research/language/tree/master/language/asqa
Kode sumber :
tfds.datasets.asqa.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
17.86 MiB
Ukuran dataset :
14.50 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Struktur fitur :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int32,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
pertanyaan_ambigu | Teks | rangkaian | Pertanyaan yang tidak ambigu dari AmbigQA. | |
anotasi | Urutan | Jawaban bentuk panjang untuk pertanyaan ambigu yang dibuat oleh anotator ASQA. | ||
keterangan/pengetahuan | Urutan | Daftar potongan pengetahuan tambahan. | ||
anotasi/pengetahuan/konten | Teks | rangkaian | Sebuah bagian dari Wikipedia. | |
anotasi/pengetahuan/halaman wiki | Teks | rangkaian | Judul halaman Wikipedia tempat bagian itu diambil. | |
anotasi/jawaban_panjang | Teks | rangkaian | Anotasi. | |
qa_pairs | Urutan | Pasangan Tanya Jawab dari AmbigQA yang digunakan untuk disambiguasi. | ||
qa_pairs/context | Teks | rangkaian | Konteks tambahan disediakan. | |
qa_pairs/pertanyaan | Teks | rangkaian | ||
qa_pairs/short_answers | Urutan (Teks) | (Tidak ada,) | rangkaian | Daftar jawaban singkat dari AmbigQA. |
qa_pairs/halaman wiki | Teks | rangkaian | Judul halaman Wikipedia tempat konteks tambahan diambil. | |
sample_id | Tensor | int32 | ||
halaman wiki | Urutan | Daftar halaman Wikipedia yang dikunjungi oleh anotator AmbigQA. | ||
halaman wiki/judul | Teks | rangkaian | Judul halaman Wikipedia. | |
halaman wiki/url | Teks | rangkaian | Tautan ke halaman Wikipedia. |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}