TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

unified_qa

Описание :

Тест UnifiedQA состоит из 20 наборов данных для ответов на основные вопросы (QA) (каждый из которых может иметь несколько версий), предназначенных для разных форматов, а также для различных сложных лингвистических явлений. Эти наборы данных сгруппированы в несколько форматов/категорий, в том числе: экстрактивный контроль качества, абстрактный контроль качества, контроль качества с множественным выбором и контроль качества «да/нет». Кроме того, наборы контрастов используются для нескольких наборов данных (обозначаемых как « наборы контрастов»). Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных. Для нескольких наборов данных, которые не поставляются с абзацами доказательств, включены два варианта: один, в котором наборы данных используются как есть, и другой, в котором используются абзацы, полученные через информационно-поисковую систему, в качестве дополнительных доказательств, обозначенных тегами «_ir».

Дополнительную информацию можно найти по адресу: https://github.com/allenai/unifiedqa .

Домашняя страница : https://github.com/allenai/unifiedqa
Исходный код : tfds.text.unifiedqa.UnifiedQA
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Структура функции :

FeaturesDict({
    'input': string,
    'output': string,
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
вход	Тензор	нить
выход	Тензор	нить

Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.

unified_qa/ai2_science_elementary (конфигурация по умолчанию)

Описание конфигурации : набор данных AI2 Science Questions состоит из вопросов, используемых в оценках учащихся в США в начальной и средней школе. Каждый вопрос представляет собой формат с 4 вариантами ответов и может включать или не включать элемент диаграммы. Этот набор состоит из вопросов, используемых для уровней начальной школы.
Размер загрузки : 345.59 KiB
Размер набора данных : 390.02 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	542
`'train'`	623
`'validation'`	123

Примеры ( tfds.as_dataframe ):

Цитата :

http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

Описание конфигурации : набор данных AI2 Science Questions состоит из вопросов, используемых в оценках учащихся в США в начальной и средней школе. Каждый вопрос представляет собой формат с 4 вариантами ответов и может включать или не включать элемент диаграммы. Этот набор состоит из вопросов, используемых для среднего школьного возраста.
Размер загрузки : 428.41 KiB
Размер набора данных : 477.40 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	679
`'train'`	605
`'validation'`	125

Примеры ( tfds.as_dataframe ):

Цитата :

http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

Описание конфигурации : AmbigQA — это задача для ответов на вопросы с открытым доменом, которая включает в себя поиск всех правдоподобных ответов, а затем переписывание вопроса для каждого из них, чтобы устранить двусмысленность.
Размер загрузки : 2.27 MiB
Размер набора данных : 3.04 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	19 806
`'validation'`	5674

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов.
Размер загрузки : 1.24 MiB
Размер набора данных : 1.42 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	2376
`'train'`	2251
`'validation'`	570

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов.
Размер загрузки : 1.24 MiB
Размер набора данных : 1.42 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	2376
`'train'`	2251
`'validation'`	570

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 7.00 MiB
Размер набора данных : 7.17 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	2376
`'train'`	2251
`'validation'`	570

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 7.00 MiB
Размер набора данных : 7.17 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	2376
`'train'`	2251
`'validation'`	570

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов.
Размер загрузки : 758.03 KiB
Размер набора данных : 848.28 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1172
`'train'`	1119
`'validation'`	299

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_dev

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов.
Размер загрузки : 758.03 KiB
Размер набора данных : 848.28 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1172
`'train'`	1119
`'validation'`	299

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 3.53 MiB
Размер набора данных : 3.62 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1172
`'train'`	1119
`'validation'`	299

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir_dev

Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 3.53 MiB
Размер набора данных : 3.62 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1172
`'train'`	1119
`'validation'`	299

Примеры ( tfds.as_dataframe ):

Цитата :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq

Описание конфигурации : BoolQ — это набор данных для ответов на вопросы «да/нет». Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке.
Размер загрузки : 7.77 MiB
Размер набора данных : 8.20 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	9427
`'validation'`	3270

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq_np

Описание конфигурации : BoolQ — это набор данных для ответов на вопросы «да/нет». Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке. Эта версия добавляет к исходной версии естественные возмущения.
Размер загрузки : 10.80 MiB
Размер набора данных : 11.40 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	9727
`'validation'`	7 596

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/здравый смыслqa

Описание конфигурации : CommonsenseQA — это новый набор данных для ответов на вопросы с несколькими вариантами ответов, который требует различных типов знаний здравого смысла для прогнозирования правильных ответов. Он содержит вопросы с одним правильным ответом и четырьмя отвлекающими ответами.
Размер загрузки : 1.79 MiB
Размер набора данных : 2.19 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1140
`'train'`	9741
`'validation'`	1221

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/здравый смыслqa_test

Описание конфигурации : CommonsenseQA — это новый набор данных для ответов на вопросы с несколькими вариантами ответов, который требует различных типов знаний здравого смысла для прогнозирования правильных ответов. Он содержит вопросы с одним правильным ответом и четырьмя отвлекающими ответами.
Размер загрузки : 1.79 MiB
Размер набора данных : 2.19 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1140
`'train'`	9741
`'validation'`	1221

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

Описание конфигурации : BoolQ — это набор данных для ответов на вопросы «да/нет». Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки : 438.51 KiB
Размер набора данных : 462.35 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	340
`'validation'`	340

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

Описание конфигурации : DROP — это краудсорсинговый тест QA, созданный злоумышленниками, в котором система должна разрешать ссылки в вопросе, возможно, на несколько входных позиций, и выполнять над ними дискретные операции (такие как сложение, подсчет или сортировка). Эти операции требуют гораздо более полного понимания содержания абзацев, чем это было необходимо для предыдущих наборов данных. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки : 2.20 MiB
Размер набора данных : 2.26 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	947
`'validation'`	947

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

Описание конфигурации : этот набор данных проверяет способность систем понимания прочитанного к кореференциальным рассуждениям. В этом эталонном тесте выбора диапазона, содержащем вопросы по абзацам из Википедии, система должна разрешить жесткие кореференции, прежде чем выбирать соответствующий диапазон(ы) в абзацах для ответов на вопросы. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки : 2.60 MiB
Размер набора данных : 2.65 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	700
`'validation'`	700

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

Описание конфигурации : этот набор данных проверяет способность системы применять знания из отрывка текста к новой ситуации. В системе представлен фоновый отрывок, содержащий причинно-следственную или качественную связь (отношения) (например, «животные-опылители повышают эффективность оплодотворения цветов»), новая ситуация, в которой используется этот фон, и вопросы, требующие рассуждения о влиянии взаимосвязей в фоновый отрывок в контексте ситуации. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки : 1.97 MiB
Размер набора данных : 2.04 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	974
`'validation'`	974

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/дроп

Описание конфигурации : DROP — это краудсорсинговый тест QA, созданный злоумышленниками, в котором система должна разрешать ссылки в вопросе, возможно, на несколько входных позиций, и выполнять над ними дискретные операции (такие как сложение, подсчет или сортировка). Эти операции требуют гораздо более полного понимания содержания абзацев, чем это было необходимо для предыдущих наборов данных.
Размер загрузки : 105.18 MiB
Размер набора данных : 108.16 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	77 399
`'validation'`	9 536

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

Описание конфигурации : MCTest требует, чтобы компьютеры отвечали на вопросы о понимании прочитанного с несколькими вариантами ответов о вымышленных историях, напрямую решая высокоуровневую цель машинного понимания в открытом домене. Понимание прочитанного может проверить продвинутые способности, такие как причинно-следственные связи и понимание мира, но, будучи множественным выбором, по-прежнему обеспечивает четкую метрику. Будучи вымышленным, ответ обычно можно найти только в самой истории. Истории и вопросы также тщательно ограничены тем, что может понять маленький ребенок, что уменьшает объем знаний о мире, необходимых для выполнения задания.
Размер загрузки : 2.14 MiB
Размер набора данных : 2.20 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	1480
`'validation'`	320

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

Описание конфигурации : MCTest требует, чтобы компьютеры отвечали на вопросы о понимании прочитанного с несколькими вариантами ответов о вымышленных историях, напрямую решая высокоуровневую цель машинного понимания в открытом домене. Понимание прочитанного может проверить продвинутые способности, такие как причинно-следственные связи и понимание мира, но, будучи множественным выбором, по-прежнему обеспечивает четкую метрику. Будучи вымышленным, ответ обычно можно найти только в самой истории. Истории и вопросы также тщательно ограничены тем, что может понять маленький ребенок, что уменьшает объем знаний о мире, необходимых для выполнения задания.
Размер загрузки : 2.15 MiB
Размер набора данных : 2.21 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	1480
`'validation'`	320

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

Описание конфигурации : MultiRC — это задача на понимание прочитанного, в которой на вопросы можно ответить, только принимая во внимание информацию из нескольких предложений. Вопросы и ответы для этой задачи были получены и проверены в ходе четырехэтапного краудсорсингового эксперимента. Набор данных содержит вопросы для абзацев по 7 различным областям (начальная школьная наука, новости, путеводители, художественные рассказы и т. д.), внося лингвистическое разнообразие в тексты и формулировки вопросов.
Размер загрузки : 897.09 KiB
Размер набора данных : 918.42 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	312
`'validation'`	312

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/повествованиеqa

Описание конфигурации : NarrativeQA — это англоязычный набор данных историй и соответствующих вопросов, предназначенный для проверки понимания прочитанного, особенно в отношении длинных документов.
Размер загрузки : 308.28 MiB
Размер набора данных : 311.22 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	21 114
`'train'`	65 494
`'validation'`	6922

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

Описание конфигурации : NarrativeQA — это англоязычный набор данных историй и соответствующих вопросов, предназначенный для проверки понимания прочитанного, особенно в отношении длинных документов.
Размер загрузки : 308.28 MiB
Размер набора данных : 311.22 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	21 114
`'train'`	65 494
`'validation'`	6922

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions

Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.
Размер загрузки : 6.95 MiB
Размер набора данных : 9.88 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	96 075
`'validation'`	2295

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans

Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия состоит из вопросов с прямым ответом.
Размер загрузки : 6.82 MiB
Размер набора данных : 10.19 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	6468
`'train'`	96 676
`'validation'`	10 693

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans_test

Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия состоит из вопросов с прямым ответом.
Размер загрузки : 6.82 MiB
Размер набора данных : 10.19 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	6468
`'train'`	96 676
`'validation'`	10 693

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para

Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия включает дополнительные абзацы (полученные с помощью поискового механизма DPR) для дополнения каждого вопроса.
Размер загрузки : 319.22 MiB
Размер набора данных : 322.91 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	96 676
`'validation'`	10 693

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para_test

Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия включает дополнительные абзацы (полученные с помощью поискового механизма DPR) для дополнения каждого вопроса.
Размер загрузки : 306.94 MiB .
Размер набора данных : 310.48 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	6468
`'train'`	96 676

Примеры ( tfds.as_dataframe ):

Цитата :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

Описание конфигурации : NewsQA — это сложный набор данных для машинного понимания, состоящий из пар вопросов и ответов, созданных человеком. Краудворкеры предоставляют вопросы и ответы на основе набора новостных статей CNN, а ответы состоят из фрагментов текста из соответствующих статей.
Размер загрузки : 283.33 MiB
Размер набора данных : 285.94 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	75 882
`'validation'`	4309

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета.
Размер загрузки : 942.34 KiB
Размер набора данных : 1.11 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	500
`'train'`	4957
`'validation'`	500

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета.
Размер загрузки : 942.34 KiB
Размер набора данных : 1.11 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	500
`'train'`	4957
`'validation'`	500

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 6.08 MiB
Размер набора данных : 6.28 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	500
`'train'`	4957
`'validation'`	500

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 6.08 MiB
Размер набора данных : 6.28 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	500
`'train'`	4957
`'validation'`	500

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/физический_iqa

Описание конфигурации : это набор данных для сравнительного анализа прогресса в физическом понимании здравого смысла. Основная задача - это ответ на вопрос с множественным выбором: при заданном вопросе q и двух возможных решениях s1, s2 модель или человек должны выбрать наиболее подходящее решение, из которых ровно одно является правильным. Набор данных фокусируется на повседневных ситуациях с предпочтением типичных решений. Набор данных вдохновлен сайтом instructables.com, который предоставляет пользователям инструкции о том, как создавать, создавать, выпекать или манипулировать объектами с использованием повседневных материалов. Аннотаторов просят предоставить семантические возмущения или альтернативные подходы, которые в остальном синтаксически и тематически схожи, чтобы обеспечить целенаправленность физических знаний. Набор данных дополнительно очищается от основных артефактов с помощью алгоритма AFLite.
Размер загрузки : 6.01 MiB
Размер набора данных : 6.59 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	16 113
`'validation'`	1838

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений.
Размер загрузки : 1.75 MiB
Размер набора данных : 2.09 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	920
`'train'`	8134
`'validation'`	926

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

унифицированный_qa/qasc_test

Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений.
Размер загрузки : 1.75 MiB
Размер набора данных : 2.09 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	920
`'train'`	8134
`'validation'`	926

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 16.95 MiB .
Размер набора данных : 17.30 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	920
`'train'`	8134
`'validation'`	926

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки : 16.95 MiB .
Размер набора данных : 17.30 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	920
`'train'`	8134
`'validation'`	926

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

Описание конфигурации : этот набор данных проверяет способность систем понимания прочитанного к кореференциальным рассуждениям. В этом эталонном тесте выбора диапазона, содержащем вопросы по абзацам из Википедии, система должна разрешить жесткие кореференции, прежде чем выбирать соответствующий диапазон(ы) в абзацах для ответов на вопросы.
Размер загрузки : 51.43 MiB .
Размер набора данных : 52.29 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	22 265
`'validation'`	2768

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string

Описание конфигурации : Race — это крупномасштабный набор данных для понимания прочитанного. Набор данных собран из экзаменов по английскому языку в Китае, которые предназначены для учащихся средних и старших классов. Набор данных можно использовать в качестве обучающего и тестового наборов для машинного понимания.
Размер загрузки : 167.97 MiB
Размер набора данных : 171.23 MiB .
Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)
Сплиты :

Расколоть	Примеры
`'test'`	4934
`'train'`	87 863
`'validation'`	4887

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string_dev

Описание конфигурации : Race — это крупномасштабный набор данных для понимания прочитанного. Набор данных собран из экзаменов по английскому языку в Китае, которые предназначены для учащихся средних и старших классов. Набор данных можно использовать в качестве обучающего и тестового наборов для машинного понимания.
Размер загрузки : 167.97 MiB
Размер набора данных : 171.23 MiB .
Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)
Сплиты :

Расколоть	Примеры
`'test'`	4934
`'train'`	87 863
`'validation'`	4887

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/веревки

Описание конфигурации : этот набор данных проверяет способность системы применять знания из отрывка текста к новой ситуации. В системе представлен фоновый отрывок, содержащий причинно-следственную или качественную связь (отношения) (например, «животные-опылители повышают эффективность оплодотворения цветов»), новая ситуация, в которой используется этот фон, и вопросы, требующие рассуждения о влиянии взаимосвязей в фоновый отрывок в контексте ситуации.
Размер загрузки : 12.91 MiB
Размер набора данных : 13.35 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	10 924
`'validation'`	1688

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

Описание конфига : это масштабный бенчмарк для рассуждений здравого смысла о социальных ситуациях. Социальный IQa содержит вопросы с несколькими вариантами ответов для исследования эмоционального и социального интеллекта в различных повседневных ситуациях. С помощью краудсорсинга собираются вопросы здравого смысла, а также правильные и неправильные ответы о социальных взаимодействиях с использованием новой структуры, которая устраняет стилистические артефакты в неправильных ответах, предлагая работникам дать правильный ответ на другой, но связанный вопрос.
Размер загрузки : 7.08 MiB
Размер набора данных : 8.22 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	33 410
`'validation'`	1954

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad1_1

Описание конфигурации : это набор данных для понимания прочитанного, состоящий из вопросов, заданных краудворкерами по набору статей Википедии, где ответом на каждый вопрос является фрагмент текста из соответствующего отрывка для чтения.
Размер загрузки : 80.62 MiB
Размер набора данных : 83.99 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	87 514
`'validation'`	10 570

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

Описание конфигурации : этот набор данных сочетает в себе исходный набор данных Stanford Question Answering Dataset (SQuAD) с вопросами, на которые нет ответов, написанными краудворкерами, чтобы они выглядели похожими на вопросы, на которые можно ответить.
Размер загрузки : 116.56 MiB
Размер набора данных : 121.43 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	130 149
`'validation'`	11 873

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_l

Описание конфигурации : этот набор данных вдохновлен оригинальным дизайном Winograd Schema Challenge, но скорректирован для улучшения как масштаба, так и точности набора данных. Ключевые этапы построения набора данных состоят из (1) тщательно разработанной процедуры краудсорсинга, за которой следует (2) систематическое снижение систематической ошибки с использованием нового алгоритма AfLite, который обобщает определяемые человеком словесные ассоциации до определяемых машиной ассоциаций встраивания. Предоставляются тренировочные комплекты разных размеров. Этот набор соответствует размеру l .
Размер загрузки : 1.49 MiB
Размер набора данных : 1.83 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	10 234
`'validation'`	1267

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

Описание конфигурации : этот набор данных вдохновлен оригинальным дизайном Winograd Schema Challenge, но скорректирован для улучшения как масштаба, так и точности набора данных. Ключевые этапы построения набора данных состоят из (1) тщательно разработанной процедуры краудсорсинга, за которой следует (2) систематическое снижение систематической ошибки с использованием нового алгоритма AfLite, который обобщает определяемые человеком словесные ассоциации до определяемых машиной ассоциаций встраивания. Предоставляются тренировочные комплекты разных размеров. Этот набор соответствует размеру m .
Размер загрузки : 507.46 KiB
Размер набора данных : 623.15 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	2558
`'validation'`	1267

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

Описание конфигурации : этот набор данных вдохновлен оригинальным дизайном Winograd Schema Challenge, но скорректирован для улучшения как масштаба, так и точности набора данных. Ключевые этапы построения набора данных состоят из (1) тщательно разработанной процедуры краудсорсинга, за которой следует (2) систематическое снижение систематической ошибки с использованием нового алгоритма AfLite, который обобщает определяемые человеком словесные ассоциации до определяемых машиной ассоциаций встраивания. Предоставляются тренировочные комплекты разных размеров. Этот набор соответствует размеру s .
Размер загрузки : 479.24 KiB
Размер набора данных : 590.47 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	1767
`'train'`	640
`'validation'`	1267

Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.