- คำอธิบาย :
ASQA เป็นชุดข้อมูลการตอบคำถามรูปแบบยาวชุดแรกที่เน้นคำถามข้อเท็จจริงที่กำกวม แตกต่างจากชุดข้อมูลคำตอบแบบยาวก่อนหน้านี้ คำถามแต่ละข้อจะมีทั้งคำตอบแบบยาวและคู่คำถาม-คำตอบแบบแยก ซึ่งควรตอบได้ด้วยข้อความที่สร้างขึ้น คำตอบแบบยาวที่สร้างขึ้นจะได้รับการประเมินโดยใช้ทั้งความแม่นยำของ ROUGE และ QA เราแสดงให้เห็นว่าตัวชี้วัดการประเมินเหล่านี้มีความสัมพันธ์กับวิจารณญาณของมนุษย์เป็นอย่างดี ใน repostory นี้ เราเปิดตัวชุดข้อมูล ASQA พร้อมกับรหัสการประเมิน: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
หน้าแรก : https://github.com/google-research/language/tree/master/language/asqa
รหัสแหล่งที่มา :
tfds.datasets.asqa.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
17.86 MiB
ขนาดชุดข้อมูล :
14.50 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'dev' | 948 |
'train' | 4,353 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int32,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คลุมเครือ_question | ข้อความ | สตริง | คำถามที่ไม่คลุมเครือจาก AmbigQA | |
คำอธิบายประกอบ | ลำดับ | คำตอบแบบยาวสำหรับคำถามกำกวมที่สร้างโดย ASQA คำอธิบายประกอบ | ||
คำอธิบายประกอบ/ความรู้ | ลำดับ | รายการชิ้นส่วนความรู้เพิ่มเติม | ||
คำอธิบายประกอบ/ความรู้/เนื้อหา | ข้อความ | สตริง | ข้อความจาก Wikipedia | |
คำอธิบายประกอบ/ความรู้/วิกิเพจ | ข้อความ | สตริง | ชื่อเรื่องของหน้าวิกิพีเดียที่นำมาจากข้อความนี้ | |
คำอธิบายประกอบ/long_answer | ข้อความ | สตริง | คำอธิบายประกอบ | |
qa_pairs | ลำดับ | คู่คำถามและคำตอบจาก AmbigQA ซึ่งใช้สำหรับแก้ความกำกวม | ||
qa_pairs/บริบท | ข้อความ | สตริง | มีบริบทเพิ่มเติม | |
qa_pairs/คำถาม | ข้อความ | สตริง | ||
qa_pairs/short_answers | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | รายการคำตอบสั้น ๆ จาก AmbigQA |
qa_pairs/วิกิพีเดีย | ข้อความ | สตริง | ชื่อเรื่องของหน้า Wikipedia ซึ่งนำมาจากบริบทเพิ่มเติม | |
รหัสตัวอย่าง | เทนเซอร์ | int32 | ||
วิกิเพจ | ลำดับ | รายชื่อหน้าวิกิพีเดียที่เข้าชมโดยผู้อธิบายประกอบ AmbigQA | ||
วิกิเพจ/ชื่อเรื่อง | ข้อความ | สตริง | ชื่อเรื่องของหน้าวิกิพีเดีย | |
วิกิเพจ/url | ข้อความ | สตริง | เชื่อมโยงไปยังหน้าวิกิพีเดีย |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}