naturalne_pytania

opis :

Korpus NQ zawiera pytania od prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://ai.google.com/research/NaturalQuestions/dataset
Kod źródłowy : tfds.datasets.natural_questions.Builder
Wersje :
- 0.0.2 : Brak informacji o wydaniu.
- 0.1.0 (domyślnie): Brak informacji o wersji.
Rozmiar pliku do pobrania : 41.97 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'train'`	307373
`'validation'`	7830

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (domyślna konfiguracja)

Opis konfiguracji: Domyślna konfiguracja natural_questions
Rozmiar zestawu danych : 90.26 GiB
Struktura funkcji :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
adnotacje	Sekwencja
adnotacje/identyfikator	Napinacz		strunowy
adnotacje/długa_odpowiedź	FunkcjeDict
adnotacje/długa_odpowiedź/końcowy bajt	Napinacz		int64
adnotacje/długa_odpowiedź/end_token	Napinacz		int64
adnotacje/długa_odpowiedź/start_byte	Napinacz		int64
adnotacje/długa_odpowiedź/start_token	Napinacz		int64
adnotacje/krótkie_odpowiedzi	Sekwencja
adnotacje/krótkie_odpowiedzi/bajt_końcowy	Napinacz		int64
adnotacje/krótkie_odpowiedzi/end_token	Napinacz		int64
adnotacje/krótkie_odpowiedzi/start_byte	Napinacz		int64
adnotacje/krótkie_odpowiedzi/start_token	Napinacz		int64
adnotacje/krótkie_odpowiedzi/tekst	Tekst		strunowy
adnotacje/tak_nie_odpowiedź	Etykieta klasy		int64
dokument	FunkcjeDict
dokument/html	Tekst		strunowy
tytuł dokumentu	Tekst		strunowy
dokument/tokeny	Sekwencja
dokument/tokeny/is_html	Napinacz		bool
dokument/tokeny/token	Tekst		strunowy
dokument/url	Tekst		strunowy
ID	Napinacz		strunowy
pytanie	FunkcjeDict
pytanie/tekst	Tekst		strunowy
pytanie/tokeny	Sekwencja (Tensor)	(Nic,)	strunowy

Przykłady ( tfds.as_dataframe ):

naturalne_pytania/longt5

Opis konfiguracji: wstępnie przetworzone pytania naturalne jak w teście porównawczym longT5
Rozmiar zestawu danych : 8.91 GiB
Struktura funkcji :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
wszystkie_odpowiedzi	Sekwencja (tekst)	(Nic,)	strunowy
odpowiedź	Tekst		strunowy
kontekst	Tekst		strunowy
ID	Tekst		strunowy
pytanie	Tekst		strunowy
tytuł	Tekst		strunowy

Przykłady ( tfds.as_dataframe ):