q_re_cc

  • বর্ণনা :

81K প্রশ্ন-উত্তর জোড়ার সাথে 14K কথোপকথন ধারণকারী একটি ডেটাসেট। QReCC TREC CAsT, QuAC এবং Google ন্যাচারাল প্রশ্ন থেকে তৈরি করা হয়েছে।

বিভক্ত উদাহরণ
'test' 16,451
'train' 63,501
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উত্তর পাঠ্য স্ট্রিং
উত্তর_ইউআরএল পাঠ্য স্ট্রিং
প্রসঙ্গ ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
কথোপকথন_আইডি স্কেলার int32 কথোপকথনের আইডি।
প্রশ্ন পাঠ্য স্ট্রিং
প্রশ্ন_পুনঃলিখন পাঠ্য স্ট্রিং
সূত্র পাঠ্য স্ট্রিং ডেটার মূল উৎস -- হয় QuAC, CAsT বা প্রাকৃতিক প্রশ্ন
turn_id স্কেলার int32 কথোপকথনের আইডি, একটি কথোপকথনের মধ্যে ঘুরিয়ে দেয়।
  • উদ্ধৃতি :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}