q_re_cc

  • Sự miêu tả :

Một tập dữ liệu chứa 14K cuộc hội thoại với 81K cặp câu hỏi-câu trả lời. QReCC được xây dựng dựa trên các câu hỏi từ TREC CAST, QuAC và Google Natural questions.

Tách ra Ví dụ
'test' 16.451
'train' 63.501
  • Cấu trúc tính năng :
FeaturesDict({
   
'answer': Text(shape=(), dtype=string),
   
'answer_url': Text(shape=(), dtype=string),
   
'context': Sequence(Text(shape=(), dtype=string)),
   
'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
   
'question': Text(shape=(), dtype=string),
   
'question_rewrite': Text(shape=(), dtype=string),
   
'source': Text(shape=(), dtype=string),
   
'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
trả lời Chữ sợi dây
câu trả lời_url Chữ sợi dây
bối cảnh Trình tự(Văn bản) (Không có,) sợi dây
cuộc trò chuyện_id vô hướng int32 Id của cuộc trò chuyện.
câu hỏi Chữ sợi dây
question_rewrite Chữ sợi dây
nguồn Chữ sợi dây Nguồn dữ liệu ban đầu -- QuAC, CAST hoặc Câu hỏi tự nhiên
lượt_id vô hướng int32 Id của cuộc trò chuyện lần lượt, trong một cuộc trò chuyện.
  • Trích dẫn :
@article{qrecc,
  title
={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author
={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal
={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year
={2021}
}