- الوصف :
ASQA هو أول سؤال طويل يجيب على مجموعة البيانات التي تركز على أسئلة غامضة. يختلف عن مجموعات بيانات الإجابات الطويلة السابقة ، يتم وضع تعليقات توضيحية لكل سؤال بإجابات طويلة وأزواج أسئلة وأجوبة استخلاصية ، والتي يجب أن تكون قابلة للإجابة عن طريق المقطع الذي تم إنشاؤه. سيتم تقييم الإجابة الطويلة التي تم إنشاؤها باستخدام دقة كل من ROUGE و QA. لقد أظهرنا أن مقاييس التقييم هذه مرتبطة جيدًا بالحكم البشري. في هذا المستودع ، نصدر مجموعة بيانات ASQA ، جنبًا إلى جنب مع كود التقييم: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
الصفحة الرئيسية : https://github.com/google-research/language/tree/master/language/asqa
كود المصدر :
tfds.datasets.asqa.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
17.86 MiB
حجم مجموعة البيانات :
14.50 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 948 |
'train' | 4،353 |
- هيكل الميزة :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int32,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
سؤال غامض | نص | سلسلة | سؤال واضح من AmbigQA. | |
الشروح | تسلسل | إجابات طويلة على السؤال الغامض الذي أنشأه المعلقون على ASQA. | ||
التعليقات التوضيحية / المعرفة | تسلسل | قائمة القطع المعرفية الإضافية. | ||
التعليقات التوضيحية / المعرفة / المحتوى | نص | سلسلة | مقطع من ويكيبيديا. | |
الشروح / المعرفة / ويكيبيج | نص | سلسلة | عنوان صفحة ويكيبيديا المأخوذة من المقطع. | |
التعليقات التوضيحية / long_answer | نص | سلسلة | حاشية. ملاحظة. | |
qa_pairs | تسلسل | أزواج الأسئلة والأجوبة من AmbigQA والتي تُستخدم للتوضيح. | ||
qa_pairs / السياق | نص | سلسلة | تم توفير سياق إضافي. | |
qa_pairs / سؤال | نص | سلسلة | ||
qa_pairs / الإجابات القصيرة | تسلسل (نص) | (لا أحد،) | سلسلة | قائمة الإجابات القصيرة من AmbigQA. |
qa_pairs / ويكيبيج | نص | سلسلة | عنوان صفحة ويكيبيديا تم أخذ السياق الإضافي منه. | |
رقم تعريف العينة | موتر | int32 | ||
ويكي | تسلسل | قائمة صفحات ويكيبيديا التي زارها مُعلقو AmbigQA. | ||
ويكيباج / العنوان | نص | سلسلة | عنوان صفحة ويكيبيديا. | |
ويكيبيجز / رابط | نص | سلسلة | رابط لصفحة ويكيبيديا. |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}