- תיאור :
ASQA הוא מערך המענה הראשון לשאלות ארוך המתמקד בשאלות עובדתיות מעורפלות. בשונה ממערכי נתונים קודמים של תשובות ארוכות, לכל שאלה יש הערות הן בתשובות ארוכות והן בצמדי שאלות ותשובות מחלצות, שעליהם ניתן לענות על ידי הקטע שנוצר. תשובה ארוכת צורה תוערך באמצעות דיוק ROUGE ו-QA כאחד. הראינו כי מדדי הערכה אלו תואמים היטב את השיפוט האנושי. במאגר זה אנו משחררים את מערך הנתונים של ASQA, יחד עם קוד ההערכה: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
דף הבית : https://github.com/google-research/language/tree/master/language/asqa
קוד מקור :
tfds.datasets.asqa.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני. -
2.0.0
: מזהה לדוגמה עובר מ-int32 (על גדותיו) ל-int64.
-
גודל הורדה :
17.86 MiB
גודל מערך נתונים :
14.50 MiB
שמירה אוטומטית במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev' | 948 |
'train' | 4,353 |
- מבנה תכונה :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
שאלה_דו-משמעית | טֶקסט | חוּט | שאלה לא משתמעת מ-AmbigQA. | |
הערות | רֶצֶף | תשובות ארוכות לשאלה המעורפלת שנבנו על ידי מחברי ASQA. | ||
הערות/ידע | רֶצֶף | רשימת קטעי ידע נוספים. | ||
הערות/ידע/תוכן | טֶקסט | חוּט | קטע מויקיפדיה. | |
הערות/ידע/וויקיפדיה | טֶקסט | חוּט | הכותרת של דף ויקיפדיה ממנו נלקח הקטע. | |
הערות/תשובה_ארוכה | טֶקסט | חוּט | ביאור. | |
qa_pairs | רֶצֶף | צמדי שאלות ותשובות מ- AmbigQA המשמשים לביטול דו-משמעיות. | ||
qa_pairs/context | טֶקסט | חוּט | הקשר נוסף מסופק. | |
qa_pairs/question | טֶקסט | חוּט | ||
qa_pairs/short_answers | רצף (טקסט) | (אַף לֹא אֶחָד,) | חוּט | רשימת תשובות קצרות מ- AmbigQA. |
qa_pairs/wikipage | טֶקסט | חוּט | הכותרת של דף ויקיפדיה שממנו נלקח ההקשר הנוסף. | |
sample_id | מוֹתֵחַ | int64 | ||
עמודי ויקיפדיה | רֶצֶף | רשימת דפי ויקיפדיה שביקרו בהם על ידי מחברי AmbigQA. | ||
wikipages/כותרת | טֶקסט | חוּט | כותרת עמוד ויקיפדיה. | |
wikipages/url | טֶקסט | חוּט | קישור לעמוד ויקיפדיה. |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}