naturalne_pytania

  • opis :

Korpus NQ zawiera pytania od prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA.

Podział Przykłady
'train' 307373
'validation' 7830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (domyślna konfiguracja)

  • Opis konfiguracji: Domyślna konfiguracja natural_questions

  • Rozmiar zestawu danych : 90.26 GiB

  • Struktura funkcji :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
adnotacje Sekwencja
adnotacje/identyfikator Napinacz strunowy
adnotacje/długa_odpowiedź FunkcjeDict
adnotacje/długa_odpowiedź/końcowy bajt Napinacz int64
adnotacje/długa_odpowiedź/end_token Napinacz int64
adnotacje/długa_odpowiedź/start_byte Napinacz int64
adnotacje/długa_odpowiedź/start_token Napinacz int64
adnotacje/krótkie_odpowiedzi Sekwencja
adnotacje/krótkie_odpowiedzi/bajt_końcowy Napinacz int64
adnotacje/krótkie_odpowiedzi/end_token Napinacz int64
adnotacje/krótkie_odpowiedzi/start_byte Napinacz int64
adnotacje/krótkie_odpowiedzi/start_token Napinacz int64
adnotacje/krótkie_odpowiedzi/tekst Tekst strunowy
adnotacje/tak_nie_odpowiedź Etykieta klasy int64
dokument FunkcjeDict
dokument/html Tekst strunowy
tytuł dokumentu Tekst strunowy
dokument/tokeny Sekwencja
dokument/tokeny/is_html Napinacz bool
dokument/tokeny/token Tekst strunowy
dokument/url Tekst strunowy
ID Napinacz strunowy
pytanie FunkcjeDict
pytanie/tekst Tekst strunowy
pytanie/tokeny Sekwencja (Tensor) (Nic,) strunowy

naturalne_pytania/longt5

  • Opis konfiguracji: wstępnie przetworzone pytania naturalne jak w teście porównawczym longT5

  • Rozmiar zestawu danych : 8.91 GiB

  • Struktura funkcji :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
wszystkie_odpowiedzi Sekwencja (tekst) (Nic,) strunowy
odpowiedź Tekst strunowy
kontekst Tekst strunowy
ID Tekst strunowy
pytanie Tekst strunowy
tytuł Tekst strunowy