trivia_qa

  • Описание :

TriviaqQA — это набор данных для понимания прочитанного, содержащий более 650 000 троек «вопрос-ответ-доказательство». TriviaqQA включает в себя 95 000 пар вопросов и ответов, созданных энтузиастами викторины, и независимо собранных доказательных документов, в среднем по шесть на вопрос, которые обеспечивают высококачественное удаленное наблюдение за ответами на вопросы.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
отвечать ОсобенностиDict
ответ/псевдонимы Последовательность (текст) (Никто,) нить
ответ/matched_wiki_entity_name Текст нить
ответ/normalized_aliases Последовательность (текст) (Никто,) нить
ответ/normalized_matched_wiki_entity_name Текст нить
ответ/нормализованное_значение Текст нить
ответ/тип Текст нить
ответ/значение Текст нить
entity_pages Последовательность
entity_pages/doc_source Текст нить
entity_pages/имя файла Текст нить
entity_pages/название Текст нить
entity_pages/wiki_context Текст нить
вопрос Текст нить
id_вопроса Текст нить
вопрос_источник Текст нить
результаты поиска Последовательность
search_results/описание Текст нить
search_results/имя файла Текст нить
search_results/ранг Тензор int32
search_results/search_context Текст нить
search_results/название Текст нить
search_results/url Текст нить
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (конфигурация по умолчанию)

  • Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа. Включает контекст из Википедии и результатов поиска.

  • Размер загрузки : 2.48 GiB

  • Размер набора данных : 14.99 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/rc.nocontext

  • Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа.

  • Размер загрузки : 2.48 GiB

  • Размер набора данных : 196.84 MiB

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/нефильтрованное

  • Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR. Включает контекст из Википедии и результатов поиска.

  • Размер загрузки : 3.07 GiB

  • Размер набора данных : 27.27 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 10 832
'train' 87 622
'validation' 11 313

trivia_qa/unfiltered.nocontext

  • Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR.

  • Размер загрузки : 603.25 MiB

  • Размер набора данных : 119.78 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 10 832
'train' 87 622
'validation' 11 313
,

  • Описание :

TriviaqQA — это набор данных для понимания прочитанного, содержащий более 650 000 троек «вопрос-ответ-доказательство». TriviaqQA включает в себя 95 000 пар вопросов и ответов, созданных энтузиастами викторины, и независимо собранных доказательных документов, в среднем по шесть на вопрос, которые обеспечивают высококачественное удаленное наблюдение за ответами на вопросы.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
отвечать ОсобенностиDict
ответ/псевдонимы Последовательность (текст) (Никто,) нить
ответ/matched_wiki_entity_name Текст нить
ответ/normalized_aliases Последовательность (текст) (Никто,) нить
ответ/normalized_matched_wiki_entity_name Текст нить
ответ/нормализованное_значение Текст нить
ответ/тип Текст нить
ответ/значение Текст нить
entity_pages Последовательность
entity_pages/doc_source Текст нить
entity_pages/имя файла Текст нить
entity_pages/название Текст нить
entity_pages/wiki_context Текст нить
вопрос Текст нить
id_вопроса Текст нить
вопрос_источник Текст нить
результаты поиска Последовательность
search_results/описание Текст нить
search_results/имя файла Текст нить
search_results/ранг Тензор int32
search_results/search_context Текст нить
search_results/название Текст нить
search_results/url Текст нить
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (конфигурация по умолчанию)

  • Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа. Включает контекст из Википедии и результатов поиска.

  • Размер загрузки : 2.48 GiB

  • Размер набора данных : 14.99 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/rc.nocontext

  • Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа.

  • Размер загрузки : 2.48 GiB

  • Размер набора данных : 196.84 MiB

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/нефильтрованное

  • Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR. Включает контекст из Википедии и результатов поиска.

  • Размер загрузки : 3.07 GiB

  • Размер набора данных : 27.27 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 10 832
'train' 87 622
'validation' 11 313

trivia_qa/unfiltered.nocontext

  • Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR.

  • Размер загрузки : 603.25 MiB

  • Размер набора данных : 119.78 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 10 832
'train' 87 622
'validation' 11 313