trivia_qa

  • Mô tả :

TriviaqQA là bộ dữ liệu đọc hiểu chứa hơn 650 nghìn bộ ba câu hỏi-câu trả lời-bằng chứng. TriviaqQA bao gồm 95 nghìn cặp câu hỏi - câu trả lời được tạo ra bởi những người đam mê câu đố và các tài liệu bằng chứng được thu thập độc lập, trung bình sáu câu hỏi cho mỗi câu hỏi, cung cấp khả năng giám sát từ xa chất lượng cao để trả lời các câu hỏi.

Tách ra Các ví dụ
'test' 10.832
'train' 87.622
'validation' 11.313
  • Cấu trúc tính năng :
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
câu trả lời Các tính năng
câu trả lời / bí danh Trình tự (Văn bản) (Không có,) tf.string
answer / match_wiki_entity_name Chữ tf.string
answer / normalized_aliases Trình tự (Văn bản) (Không có,) tf.string
answer / normalized_match_wiki_entity_name Chữ tf.string
answer / normalized_value Chữ tf.string
câu trả lời / loại Chữ tf.string
câu trả lời / giá trị Chữ tf.string
entity_pages Sự phối hợp
entity_pages / doc_source Chữ tf.string
entity_pages / filename Chữ tf.string
entity_pages / title Chữ tf.string
entity_pages / wiki_context Chữ tf.string
câu hỏi Chữ tf.string
question_id Chữ tf.string
câu hỏi_nguồn Chữ tf.string
kết quả tìm kiếm Sự phối hợp
search_results / description Chữ tf.string
search_results / filename Chữ tf.string
kết quả tìm kiếm / xếp hạng Tensor tf.int32
search_results / search_context Chữ tf.string
search_results / title Chữ tf.string
search_results / url Chữ tf.string
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa / rc (cấu hình mặc định)

  • Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.

trivia_qa / rc.nocontext

  • Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định chứa (các) chuỗi câu trả lời.

trivia_qa / chưa lọc

  • Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.

trivia_qa / unsiltered.nocontext

  • Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.