טבעי_שאלות

  • תיאור :

קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. ההכללה של שאלות משתמש אמיתיות, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA.

לְפַצֵל דוגמאות
'train' 307,373
'validation' 7,830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (תצורת ברירת מחדל)

  • תיאור תצורה : תצורת ברירת מחדל natural_questions

  • גודל ערכת נתונים: 90.26 GiB

  • מבנה תכונה :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הערות סדר פעולות
הערות/מזהה מוֹתֵחַ חוּט
הערות/תשובה_ארוכה FeaturesDict
annotations/long_answer/end_byte מוֹתֵחַ int64
הערות/long_answer/end_token מוֹתֵחַ int64
annotations/long_answer/start_byte מוֹתֵחַ int64
הערות/long_answer/start_token מוֹתֵחַ int64
הערות/תשובות_קצרות סדר פעולות
הערות/short_answers/end_byte מוֹתֵחַ int64
הערות/short_answers/end_token מוֹתֵחַ int64
הערות/short_answers/start_byte מוֹתֵחַ int64
הערות/short_answers/start_token מוֹתֵחַ int64
הערות/short_answers/text טֶקסט חוּט
הערות/כן_לא_תשובה ClassLabel int64
מסמך FeaturesDict
מסמך/html טֶקסט חוּט
כותרת המסמך טֶקסט חוּט
מסמך/אסימונים סדר פעולות
document/tokens/is_html מוֹתֵחַ bool
מסמך/אסימונים/אסימון טֶקסט חוּט
מסמך/כתובת אתר טֶקסט חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
שְׁאֵלָה FeaturesDict
שאלה/טקסט טֶקסט חוּט
שאלה/אסימונים רצף (טנזור) (אף אחד,) חוּט

natural_questions/longt5

  • תיאור תצורה : natural_questions מעובדות מראש כמו ב-longT5 benchmark

  • גודל ערכת נתונים : 8.91 GiB

  • מבנה תכונה :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
כל_התשובות רצף (טקסט) (אף אחד,) חוּט
תשובה טֶקסט חוּט
הֶקשֵׁר טֶקסט חוּט
תְעוּדַת זֶהוּת טֶקסט חוּט
שְׁאֵלָה טֶקסט חוּט
כותרת טֶקסט חוּט