- Mô tả :
ASQA là tập dữ liệu trả lời câu hỏi dạng dài đầu tiên tập trung vào các câu hỏi không rõ ràng về sự kiện. Khác với các tập dữ liệu câu trả lời dạng dài trước đây, mỗi câu hỏi được chú thích bằng cả câu trả lời dạng dài và các cặp câu hỏi-câu trả lời chiết xuất, nên có thể trả lời được bằng đoạn văn đã tạo. Một câu trả lời dạng dài đã tạo sẽ được đánh giá bằng cách sử dụng cả độ chính xác ROUGE và QA. Chúng tôi cho thấy rằng những chỉ số đánh giá này có tương quan tốt với đánh giá của con người. Trong kho lưu trữ này, chúng tôi phát hành tập dữ liệu ASQA, cùng với mã đánh giá: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Trang chủ : https://github.com/google-research/language/tree/master/language/asqa
Mã nguồn :
tfds.question_answering.asqa.Asqa
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
17.86 MiB
Kích thước tập dữ liệu :
14.50 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Cấu trúc tính năng :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=tf.string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=tf.string),
'wikipage': Text(shape=(), dtype=tf.string),
}),
'long_answer': Text(shape=(), dtype=tf.string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
'short_answers': Sequence(Text(shape=(), dtype=tf.string)),
'wikipage': Text(shape=(), dtype=tf.string),
}),
'sample_id': tf.int32,
'wikipages': Sequence({
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
mơ hồ_question | Chữ | tf.string | Câu hỏi phân biệt từ AmbigQA. | |
chú thích | Sự phối hợp | Các câu trả lời dạng dài cho câu hỏi không rõ ràng do các trình chú giải ASQA xây dựng. | ||
chú thích / kiến thức | Sự phối hợp | Danh sách các phần kiến thức bổ sung. | ||
chú thích / kiến thức / nội dung | Chữ | tf.string | Một đoạn văn từ Wikipedia. | |
chú thích / kiến thức / wikipage | Chữ | tf.string | Tiêu đề của trang Wikipedia mà đoạn văn được lấy từ đó. | |
chú thích / long_answer | Chữ | tf.string | Chú thích. | |
qa_pairs | Sự phối hợp | Các cặp câu hỏi và giải đáp từ AmbigQA được sử dụng để phân định. | ||
qa_pairs / context | Chữ | tf.string | Bối cảnh bổ sung được cung cấp. | |
qa_pairs / câu hỏi | Chữ | tf.string | ||
qa_pairs / short_answers | Trình tự (Văn bản) | (Không có,) | tf.string | Danh sách các câu trả lời ngắn từ AmbigQA. |
qa_pairs / wikipage | Chữ | tf.string | Tiêu đề của trang Wikipedia mà bối cảnh bổ sung được lấy từ đó. | |
sample_id | Tensor | tf.int32 | ||
wikipages | Sự phối hợp | Danh sách các trang Wikipedia được truy cập bởi các nhà chú giải AmbigQA. | ||
wikipages / title | Chữ | tf.string | Tiêu đề của trang Wikipedia. | |
wikipages / url | Chữ | tf.string | Liên kết đến trang Wikipedia. |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}