ciekawostki_qa

  • opis :

TriviaqQA to zbiór danych dotyczących czytania ze zrozumieniem, zawierający ponad 650 000 potrójnych pytań-odpowiedzi-dowodów. TriviaqQA obejmuje 95 000 par pytanie-odpowiedź autorstwa entuzjastów ciekawostek i niezależnie zebranych dokumentów dowodowych, średnio sześć na pytanie, które zapewniają wysokiej jakości zdalny nadzór nad odpowiadaniem na pytania.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedź FunkcjeDict
odpowiedź/aliasy Sekwencja (tekst) (Nic,) strunowy
answer/dopasowana_nazwa_obiektu_wiki Tekst strunowy
odpowiedź/znormalizowane_aliasy Sekwencja (tekst) (Nic,) strunowy
answer/normalized_matched_wiki_entity_name Tekst strunowy
odpowiedź/wartość_znormalizowana Tekst strunowy
odpowiedź/typ Tekst strunowy
odpowiedź/wartość Tekst strunowy
strony_obiektów Sekwencja
strony_jednostki/źródło_dokumentu Tekst strunowy
strony_jednostki/nazwa_pliku Tekst strunowy
strony_jednostki/tytuł Tekst strunowy
strony_jednostki/kontekst_wiki Tekst strunowy
pytanie Tekst strunowy
identyfikator_pytania Tekst strunowy
źródło_pytań Tekst strunowy
wyniki_wyszukiwania Sekwencja
wyniki_wyszukiwania/opis Tekst strunowy
wyniki_wyszukiwania/nazwa_pliku Tekst strunowy
wyniki_wyszukiwania/ranking Napinacz int32
wyniki_wyszukiwania/kontekst_wyszukiwania Tekst strunowy
wyniki_wyszukiwania/tytuł Tekst strunowy
wyniki_wyszukiwania/url Tekst strunowy
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (domyślna konfiguracja)

  • Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.

  • Rozmiar pliku do pobrania : 2.48 GiB

  • Rozmiar zestawu danych : 14.99 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 17210
'train' 138384
'validation' 18669

trivia_qa/rc.nocontext

  • Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi.

  • Rozmiar pliku do pobrania : 2.48 GiB

  • Rozmiar zestawu danych : 196.84 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 17210
'train' 138384
'validation' 18669

trivia_qa/niefiltrowane

  • Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że ​​niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.

  • Rozmiar pliku do pobrania : 3.07 GiB

  • Rozmiar zestawu danych : 27.27 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 10832
'train' 87622
'validation' 11313

trivia_qa/unfiltered.nocontext

  • Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że ​​niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR.

  • Rozmiar pliku do pobrania : 603.25 MiB

  • Rozmiar zestawu danych : 119.78 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 10832
'train' 87622
'validation' 11313
,

  • opis :

TriviaqQA to zbiór danych dotyczących czytania ze zrozumieniem, zawierający ponad 650 000 potrójnych pytań-odpowiedzi-dowodów. TriviaqQA obejmuje 95 000 par pytanie-odpowiedź autorstwa entuzjastów ciekawostek i niezależnie zebranych dokumentów dowodowych, średnio sześć na pytanie, które zapewniają wysokiej jakości zdalny nadzór nad odpowiadaniem na pytania.

FeaturesDict({
   
'answer': FeaturesDict({
       
'aliases': Sequence(Text(shape=(), dtype=string)),
       
'matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
       
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
       
'normalized_value': Text(shape=(), dtype=string),
       
'type': Text(shape=(), dtype=string),
       
'value': Text(shape=(), dtype=string),
   
}),
   
'entity_pages': Sequence({
       
'doc_source': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'wiki_context': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'question_id': Text(shape=(), dtype=string),
   
'question_source': Text(shape=(), dtype=string),
   
'search_results': Sequence({
       
'description': Text(shape=(), dtype=string),
       
'filename': Text(shape=(), dtype=string),
       
'rank': int32,
       
'search_context': Text(shape=(), dtype=string),
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedź FunkcjeDict
odpowiedź/aliasy Sekwencja (tekst) (Nic,) strunowy
answer/dopasowana_nazwa_obiektu_wiki Tekst strunowy
odpowiedź/znormalizowane_aliasy Sekwencja (tekst) (Nic,) strunowy
answer/normalized_matched_wiki_entity_name Tekst strunowy
odpowiedź/wartość_znormalizowana Tekst strunowy
odpowiedź/typ Tekst strunowy
odpowiedź/wartość Tekst strunowy
strony_obiektów Sekwencja
strony_jednostki/źródło_dokumentu Tekst strunowy
strony_jednostki/nazwa_pliku Tekst strunowy
strony_jednostki/tytuł Tekst strunowy
strony_jednostki/kontekst_wiki Tekst strunowy
pytanie Tekst strunowy
identyfikator_pytania Tekst strunowy
źródło_pytań Tekst strunowy
wyniki_wyszukiwania Sekwencja
wyniki_wyszukiwania/opis Tekst strunowy
wyniki_wyszukiwania/nazwa_pliku Tekst strunowy
wyniki_wyszukiwania/ranking Napinacz int32
wyniki_wyszukiwania/kontekst_wyszukiwania Tekst strunowy
wyniki_wyszukiwania/tytuł Tekst strunowy
wyniki_wyszukiwania/url Tekst strunowy
@article{2017arXivtriviaqa,
       author
= { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 
Daniel and {Zettlemoyer}, Luke},
        title
= "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal
= {arXiv e-prints},
         year
= 2017,
          eid
= {arXiv:1705.03551},
        pages
= {arXiv:1705.03551},
archivePrefix
= {arXiv},
       eprint
= {1705.03551},
}

trivia_qa/rc (domyślna konfiguracja)

  • Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.

  • Rozmiar pliku do pobrania : 2.48 GiB

  • Rozmiar zestawu danych : 14.99 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 17210
'train' 138384
'validation' 18669

trivia_qa/rc.nocontext

  • Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi.

  • Rozmiar pliku do pobrania : 2.48 GiB

  • Rozmiar zestawu danych : 196.84 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 17210
'train' 138384
'validation' 18669

trivia_qa/niefiltrowane

  • Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że ​​niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.

  • Rozmiar pliku do pobrania : 3.07 GiB

  • Rozmiar zestawu danych : 27.27 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 10832
'train' 87622
'validation' 11313

trivia_qa/unfiltered.nocontext

  • Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że ​​niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR.

  • Rozmiar pliku do pobrania : 603.25 MiB

  • Rozmiar zestawu danych : 119.78 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 10832
'train' 87622
'validation' 11313