asqa

  • Mô tả :

ASQA là tập dữ liệu trả lời câu hỏi dạng dài đầu tiên tập trung vào các câu hỏi không rõ ràng về sự kiện. Khác với các tập dữ liệu câu trả lời dạng dài trước đây, mỗi câu hỏi được chú thích bằng cả câu trả lời dạng dài và các cặp câu hỏi-câu trả lời chiết xuất, nên có thể trả lời được bằng đoạn văn đã tạo. Một câu trả lời dạng dài đã tạo sẽ được đánh giá bằng cách sử dụng cả độ chính xác ROUGE và QA. Chúng tôi cho thấy rằng những chỉ số đánh giá này có tương quan tốt với đánh giá của con người. Trong kho lưu trữ này, chúng tôi phát hành tập dữ liệu ASQA, cùng với mã đánh giá: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

Tách ra Các ví dụ
'dev' 948
'train' 4.353
  • Cấu trúc tính năng :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=tf.string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=tf.string),
            'wikipage': Text(shape=(), dtype=tf.string),
        }),
        'long_answer': Text(shape=(), dtype=tf.string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=tf.string),
        'question': Text(shape=(), dtype=tf.string),
        'short_answers': Sequence(Text(shape=(), dtype=tf.string)),
        'wikipage': Text(shape=(), dtype=tf.string),
    }),
    'sample_id': tf.int32,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
mơ hồ_question Chữ tf.string Câu hỏi phân biệt từ AmbigQA.
chú thích Sự phối hợp Các câu trả lời dạng dài cho câu hỏi không rõ ràng do các trình chú giải ASQA xây dựng.
chú thích / kiến ​​thức Sự phối hợp Danh sách các phần kiến ​​thức bổ sung.
chú thích / kiến ​​thức / nội dung Chữ tf.string Một đoạn văn từ Wikipedia.
chú thích / kiến ​​thức / wikipage Chữ tf.string Tiêu đề của trang Wikipedia mà đoạn văn được lấy từ đó.
chú thích / long_answer Chữ tf.string Chú thích.
qa_pairs Sự phối hợp Các cặp câu hỏi và giải đáp từ AmbigQA được sử dụng để phân định.
qa_pairs / context Chữ tf.string Bối cảnh bổ sung được cung cấp.
qa_pairs / câu hỏi Chữ tf.string
qa_pairs / short_answers Trình tự (Văn bản) (Không có,) tf.string Danh sách các câu trả lời ngắn từ AmbigQA.
qa_pairs / wikipage Chữ tf.string Tiêu đề của trang Wikipedia mà bối cảnh bổ sung được lấy từ đó.
sample_id Tensor tf.int32
wikipages Sự phối hợp Danh sách các trang Wikipedia được truy cập bởi các nhà chú giải AmbigQA.
wikipages / title Chữ tf.string Tiêu đề của trang Wikipedia.
wikipages / url Chữ tf.string Liên kết đến trang Wikipedia.
  • Trích dẫn :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}