- Описание :
ASQA — это первый набор данных с длинными вопросами и ответами, который фокусируется на неоднозначных фактоидных вопросах. В отличие от предыдущих наборов данных с подробными ответами, каждый вопрос сопровождается как подробными ответами, так и экстрактивными парами вопрос-ответ, на которые должен отвечать сгенерированный отрывок. Сгенерированный развернутый ответ будет оцениваться с использованием точности ROUGE и QA. Мы показали, что эти показатели оценки хорошо коррелируют с человеческим суждением. В этом репозитории мы публикуем набор данных ASQA вместе с оценочным кодом: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Домашняя страница : https://github.com/google-research/language/tree/master/language/asqa.
Исходный код :
tfds.datasets.asqa.Builder
.Версии :
-
1.0.0
: Начальная версия. -
2.0.0
(по умолчанию) : идентификатор образца меняется с int32 (переполнение) на int64.
-
Размер загрузки :
17.86 MiB
Размер набора данных :
14.51 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'dev' | 948 |
'train' | 4,353 |
- Структура функции :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
неоднозначный_вопрос | Текст | нить | Неоднозначный вопрос от AmbigQA. | |
аннотации | Последовательность | Подробные ответы на неоднозначный вопрос, составленный аннотаторами ASQA. | ||
аннотации/знания | Последовательность | Список дополнительных знаний. | ||
аннотации/знания/содержание | Текст | нить | Отрывок из Википедии. | |
аннотации/знания/вики-страница | Текст | нить | Название страницы Википедии, с которой взят отрывок. | |
аннотации/длинный_ответ | Текст | нить | Аннотация. | |
qa_pairs | Последовательность | Пары вопросов и ответов от AmbigQA, которые используются для устранения неоднозначности. | ||
qa_pairs/контекст | Текст | нить | Предоставлен дополнительный контекст. | |
qa_pairs/вопрос | Текст | нить | ||
qa_pairs/short_ответы | Последовательность (текст) | (Никто,) | нить | Список коротких ответов от AmbigQA. |
qa_pairs/вики-страница | Текст | нить | Название страницы Википедии, откуда был взят дополнительный контекст. | |
sample_id | Тензор | int64 | ||
вики-страницы | Последовательность | Список страниц Википедии, которые посетили аннотаторы AmbigQA. | ||
вики-страницы/название | Текст | нить | Название страницы Википедии. | |
вики-страницы/URL | Текст | нить | Ссылка на страницу в Википедии. |
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}