- विवरण :
ASQA पहला दीर्घ रूप वाला प्रश्न उत्तर डेटासेट है जो अस्पष्ट तथ्यात्मक प्रश्नों पर ध्यान केंद्रित करता है। पिछले दीर्घ-रूप वाले उत्तर डेटासेट से भिन्न, प्रत्येक प्रश्न को दीर्घ-रूप वाले उत्तर और निष्कर्षित प्रश्न-उत्तर जोड़े दोनों के साथ एनोटेट किया जाता है, जो उत्पन्न मार्ग द्वारा उत्तर देने योग्य होना चाहिए। ROUGE और QA सटीकता दोनों का उपयोग करके एक उत्पन्न दीर्घ-रूप वाले उत्तर का मूल्यांकन किया जाएगा। हमने दिखाया कि ये मूल्यांकन मेट्रिक्स मानव निर्णय से अच्छी तरह से संबंधित हैं। इस रिपॉजिटरी में हम मूल्यांकन कोड के साथ ASQA डेटासेट जारी करते हैं: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
मुखपृष्ठ : https://github.com/google-research/language/tree/master/language/asqa
स्रोत कोड :
tfds.datasets.asqa.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
17.86 MiB
डेटासेट का आकार :
14.50 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'dev' | 948 |
'train' | 4,353 |
- फ़ीचर संरचना :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int32,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
अस्पष्ट_प्रश्न | मूलपाठ | डोरी | AmbigQA से असंबद्ध प्रश्न। | |
एनोटेशन | क्रम | एएसक्यूए एनोटेटर्स द्वारा निर्मित अस्पष्ट प्रश्नों के दीर्घकालीन उत्तर। | ||
एनोटेशन / ज्ञान | क्रम | अतिरिक्त ज्ञान के टुकड़ों की सूची। | ||
एनोटेशन/ज्ञान/सामग्री | मूलपाठ | डोरी | विकिपीडिया से एक अंश। | |
एनोटेशन/ज्ञान/विकिपेज | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक गद्यांश से लिया गया है। | |
एनोटेशन/long_answer | मूलपाठ | डोरी | व्याख्या। | |
qa_pairs | क्रम | अंबिगक्यूए से क्यू एंड ए जोड़े जो स्पष्टीकरण के लिए उपयोग किए जाते हैं। | ||
qa_pairs/context | मूलपाठ | डोरी | अतिरिक्त संदर्भ प्रदान किया गया। | |
qa_pairs/प्रश्न | मूलपाठ | डोरी | ||
qa_pairs/short_answers | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी | AmbigQA से संक्षिप्त उत्तरों की सूची। |
qa_pairs/wikipage | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक अतिरिक्त संदर्भ से लिया गया था। | |
नमूना_आईडी | टेन्सर | int32 | ||
wikipages | क्रम | एंबिगक्यूए एनोटेटर द्वारा विज़िट किए गए विकिपीडिया पेजों की सूची। | ||
विकिपेज/टाइटल | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक। | |
विकिपेज/यूआरएल | मूलपाठ | डोरी | विकिपीडिया पेज से लिंक करें। |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}