curiosità_qa

  • Descrizione :

TriviaqQA è un set di dati sulla comprensione della lettura contenente oltre 650.000 triple di domande-risposte-prove. TriviaqQA include 95.000 coppie di domande-risposte create da appassionati di curiosità e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono una supervisione a distanza di alta qualità per rispondere alle domande.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
risposta CaratteristicheDict
risposta/alias Sequenza(Testo) (Nessuno,) corda
risposta/nome_entità_wiki_corrispondente Testo corda
risposta/alias_normalizzati Sequenza(Testo) (Nessuno,) corda
risposta/normalized_matched_wiki_entity_name Testo corda
risposta/valore_normalizzato Testo corda
rispondi/digita Testo corda
risposta/valore Testo corda
entità_pages Sequenza
entità_pages/doc_source Testo corda
pagine_entità/nomefile Testo corda
pagine_entità/titolo Testo corda
pagine_entità/contesto_wiki Testo corda
domanda Testo corda
domanda_id Testo corda
fonte_domanda Testo corda
risultati di ricerca Sequenza
risultati_ricerca/descrizione Testo corda
risultati_ricerca/nomefile Testo corda
risultati_ricerca/classifica Tensore int32
risultati_ricerca/contesto_ricerca Testo corda
risultati_ricerca/titolo Testo corda
risultati_ricerca/url Testo corda
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (configurazione predefinita)

  • Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta. Include contesto da Wikipedia e risultati di ricerca.

  • Dimensione del download : 2.48 GiB

  • Dimensione del set di dati : 14.99 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/rc.nocontext

  • Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta.

  • Dimensione del download : 2.48 GiB

  • Dimensione del set di dati: 196.84 MiB

  • Cache automatica ( documentazione ): Sì (test, convalida), solo quando shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/non filtrato

  • Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR. Include contesto da Wikipedia e risultati di ricerca.

  • Dimensione del download : 3.07 GiB

  • Dimensione del set di dati: 27.27 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 10.832
'train' 87.622
'validation' 11.313

trivia_qa/unfiltered.nocontext

  • Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR.

  • Dimensione del download : 603.25 MiB

  • Dimensione del set di dati: 119.78 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 10.832
'train' 87.622
'validation' 11.313
,

  • Descrizione :

TriviaqQA è un set di dati sulla comprensione della lettura contenente oltre 650.000 triple di domande-risposte-prove. TriviaqQA include 95.000 coppie di domande-risposte create da appassionati di curiosità e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono una supervisione a distanza di alta qualità per rispondere alle domande.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
risposta CaratteristicheDict
risposta/alias Sequenza(Testo) (Nessuno,) corda
risposta/nome_entità_wiki_corrispondente Testo corda
risposta/alias_normalizzati Sequenza(Testo) (Nessuno,) corda
risposta/normalized_matched_wiki_entity_name Testo corda
risposta/valore_normalizzato Testo corda
rispondi/digita Testo corda
risposta/valore Testo corda
entità_pages Sequenza
entità_pages/doc_source Testo corda
pagine_entità/nomefile Testo corda
pagine_entità/titolo Testo corda
pagine_entità/contesto_wiki Testo corda
domanda Testo corda
domanda_id Testo corda
fonte_domanda Testo corda
risultati di ricerca Sequenza
risultati_ricerca/descrizione Testo corda
risultati_ricerca/nomefile Testo corda
risultati_ricerca/classifica Tensore int32
risultati_ricerca/contesto_ricerca Testo corda
risultati_ricerca/titolo Testo corda
risultati_ricerca/url Testo corda
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (configurazione predefinita)

  • Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta. Include contesto da Wikipedia e risultati di ricerca.

  • Dimensione del download : 2.48 GiB

  • Dimensione del set di dati : 14.99 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/rc.nocontext

  • Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta.

  • Dimensione del download : 2.48 GiB

  • Dimensione del set di dati: 196.84 MiB

  • Cache automatica ( documentazione ): Sì (test, convalida), solo quando shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'test' 17.210
'train' 138.384
'validation' 18.669

trivia_qa/non filtrato

  • Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR. Include contesto da Wikipedia e risultati di ricerca.

  • Dimensione del download : 3.07 GiB

  • Dimensione del set di dati: 27.27 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 10.832
'train' 87.622
'validation' 11.313

trivia_qa/unfiltered.nocontext

  • Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR.

  • Dimensione del download : 603.25 MiB

  • Dimensione del set di dati: 119.78 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 10.832
'train' 87.622
'validation' 11.313