answer_equivalence

  • توضیحات :

مجموعه داده معادل پاسخ شامل رتبه‌بندی‌های انسانی در پیش‌بینی مدل از چندین مدل در مجموعه داده SQuAD است. رتبه‌بندی‌ها تعیین می‌کنند که آیا پاسخ پیش‌بینی‌شده «معادل» با پاسخ طلاست (با در نظر گرفتن سؤال و زمینه).

به طور خاص، منظور ما از «معادل» این است که پاسخ پیش‌بینی‌شده حداقل اطلاعاتی مشابه با پاسخ طلا دارد و اطلاعات اضافی اضافه نمی‌کند. مجموعه داده حاوی حاشیه نویسی برای: * پیش بینی های BiDAF در SQuAD dev * پیش بینی های XLNet در SQuAD dev * پیش بینی های لوک در SQuAD dev * پیش بینی های آلبرت در آموزش SQuAD، توسعه دهنده و نمونه های تست

شکاف مثال ها
'ae_dev' 4,446
'ae_test' 9,724
'dev_bidaf' 7,522
'dev_luke' 4590
'dev_xlnet' 7,932
'train' 9,090
  • ساختار ویژگی :
FeaturesDict({
    'candidate': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'gold_index': int32,
    'qid': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'reference': Text(shape=(), dtype=string),
    'score': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
نامزد متن رشته
متن نوشته متن رشته
gold_index تانسور int32
qid متن رشته
سوال متن رشته
سوال 1 ClassLabel int64
سوال 2 ClassLabel int64
سوال_3 ClassLabel int64
سوال_4 ClassLabel int64
مرجع متن رشته
نمره تانسور float32
  • نقل قول :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}