- opis :
Nowy zestaw danych zawierający 7787 autentycznych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Dołączamy również zbiór ponad 14 milionów zdań naukowych związanych z zadaniem oraz implementację trzech neuronowych modeli bazowych dla tego zestawu danych. Stawiamy ARC jako wyzwanie dla społeczności.
W porównaniu z oryginalnym zbiorem danych dodaje to zdania kontekstowe uzyskane poprzez wyszukiwanie informacji w taki sam sposób jak UnifiedQA (patrz: https://arxiv.org/abs/2005.00700 ).
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://allenai.org/data/arc
Kod źródłowy :
tfds.datasets.ai2_arc_with_ir.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
3.68 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Struktura funkcji :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
klucz odpowiedzi | Etykieta klasy | int64 | ||
wybory | Sekwencja | |||
wybory/etykieta | Etykieta klasy | int64 | ||
wybory/tekst | Tekst | strunowy | ||
ID | Tekst | strunowy | ||
ustęp | Tekst | strunowy | ||
pytanie | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (domyślna konfiguracja)
Opis konfiguracji : Wyzwanie Zestaw 2590 „trudnych” pytań (takich, na które zarówno metoda odzyskiwania, jak i metoda współwystępowania nie dają poprawnej odpowiedzi)
Rozmiar zestawu danych :
3.76 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- Przykłady ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Opis konfiguracji : Łatwy zestaw 5197 pytań do wyzwania ARC.
Rozmiar zestawu danych :
7.49 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 2376 |
'train' | 2251 |
'validation' | 570 |
- Przykłady ( tfds.as_dataframe ):