trivia_qa

  • Descrição :

TriviaqQA é um conjunto de dados de compreensão de leitura contendo mais de 650 mil perguntas-respostas-evidências triplas. O TriviaqQA inclui 95 mil pares de perguntas e respostas de autoria de entusiastas de curiosidades e documentos de evidências coletados independentemente, seis por pergunta em média, que fornecem supervisão distante de alta qualidade para responder às perguntas.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
responder RecursosDict
resposta/aliases Sequência (Texto) (Nenhum,) corda
resposta/matched_wiki_entity_name Texto corda
answer/normalized_aliases Sequência (Texto) (Nenhum,) corda
answer/normalized_matched_wiki_entity_name Texto corda
resposta/valor_normalizado Texto corda
responder/digitar Texto corda
resposta/valor Texto corda
entity_pages Seqüência
entity_pages/doc_source Texto corda
entity_pages/filename Texto corda
entity_pages/title Texto corda
entity_pages/wiki_context Texto corda
pergunta Texto corda
question_id Texto corda
question_source Texto corda
Procurar Resultados Seqüência
resultados_pesquisa/descrição Texto corda
search_results/filename Texto corda
resultados_pesquisa/classificação tensor int32
resultados_pesquisa/contexto_pesquisa Texto corda
resultados_pesquisa/título Texto corda
search_results/url Texto corda
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (configuração padrão)

  • Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta. Inclui contexto da Wikipedia e resultados de pesquisa.

  • Tamanho do download : 2.48 GiB

  • Tamanho do conjunto de dados : 14.99 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/rc.nocontext

  • Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta.

  • Tamanho do download : 2.48 GiB

  • Tamanho do conjunto de dados : 196.84 MiB

  • Cache automático ( documentação ): Sim (teste, validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/não filtrado

  • Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR. Inclui contexto da Wikipedia e resultados de pesquisa.

  • Tamanho do download : 3.07 GiB

  • Tamanho do conjunto de dados : 27.27 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 10.832
'train' 87.622
'validation' 11.313

trivia_qa/unfiltered.nocontext

  • Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR.

  • Tamanho do download : 603.25 MiB

  • Tamanho do conjunto de dados : 119.78 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 10.832
'train' 87.622
'validation' 11.313
,

  • Descrição :

TriviaqQA é um conjunto de dados de compreensão de leitura contendo mais de 650 mil perguntas-respostas-evidências triplas. O TriviaqQA inclui 95 mil pares de perguntas e respostas de autoria de entusiastas de curiosidades e documentos de evidências coletados independentemente, seis por pergunta em média, que fornecem supervisão distante de alta qualidade para responder às perguntas.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
responder RecursosDict
resposta/aliases Sequência (Texto) (Nenhum,) corda
resposta/matched_wiki_entity_name Texto corda
answer/normalized_aliases Sequência (Texto) (Nenhum,) corda
answer/normalized_matched_wiki_entity_name Texto corda
resposta/valor_normalizado Texto corda
responder/digitar Texto corda
resposta/valor Texto corda
entity_pages Seqüência
entity_pages/doc_source Texto corda
entity_pages/filename Texto corda
entity_pages/title Texto corda
entity_pages/wiki_context Texto corda
pergunta Texto corda
question_id Texto corda
question_source Texto corda
Procurar Resultados Seqüência
resultados_pesquisa/descrição Texto corda
search_results/filename Texto corda
resultados_pesquisa/classificação tensor int32
resultados_pesquisa/contexto_pesquisa Texto corda
resultados_pesquisa/título Texto corda
search_results/url Texto corda
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (configuração padrão)

  • Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta. Inclui contexto da Wikipedia e resultados de pesquisa.

  • Tamanho do download : 2.48 GiB

  • Tamanho do conjunto de dados : 14.99 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/rc.nocontext

  • Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta.

  • Tamanho do download : 2.48 GiB

  • Tamanho do conjunto de dados : 196.84 MiB

  • Cache automático ( documentação ): Sim (teste, validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/não filtrado

  • Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR. Inclui contexto da Wikipedia e resultados de pesquisa.

  • Tamanho do download : 3.07 GiB

  • Tamanho do conjunto de dados : 27.27 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 10.832
'train' 87.622
'validation' 11.313

trivia_qa/unfiltered.nocontext

  • Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR.

  • Tamanho do download : 603.25 MiB

  • Tamanho do conjunto de dados : 119.78 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 10.832
'train' 87.622
'validation' 11.313