Super klej

  • opis :

SuperGLUE ( https://super.gluebenchmark.com/ ) to nowy test porównawczy stylizowany na GLUE z nowym zestawem trudniejszych zadań związanych ze zrozumieniem języka, ulepszonymi zasobami i nową publiczną tabelą wyników.

super_glue/boolq (domyślna konfiguracja)

  • Opis konfiguracji: BoolQ (Boolean Questions, Clark et al., 2019a) to zadanie QA, w którym każdy przykład składa się z krótkiego fragmentu i pytania tak/nie dotyczącego fragmentu. Pytania są zadawane anonimowo i dobrowolnie przez użytkowników wyszukiwarki Google, a następnie zestawiane z akapitem artykułu w Wikipedii zawierającego odpowiedź. Po oryginalnej pracy oceniamy z dokładnością.

  • Strona główna : https://github.com/google-research-datasets/boolean-questions

  • Rozmiar pliku do pobrania : 3.93 MiB

  • Rozmiar zestawu danych : 10.75 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 3245
'train' 9427
'validation' 3270
  • Struktura funkcji :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
idx Napinacz int32
etykieta Etykieta klasy int64
przejście Tekst strunowy
pytanie Tekst strunowy
  • Cytat :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/cb

  • Opis konfiguracji: CommitmentBank (De Marneffe i in., 2019) to zbiór krótkich tekstów, w których co najmniej jedno zdanie zawiera osadzoną klauzulę. Każda z tych osadzonych klauzul jest opatrzona adnotacją określającą stopień, w jakim oczekujemy, że osoba, która napisała tekst, jest zobowiązana do prawdziwości klauzuli. Wynikowe zadanie sformułowane jako trzyklasowe implikacje tekstowe na przykładach zaczerpniętych z Wall Street Journal, beletrystyki z British National Corpus i Switchboard. Każdy przykład składa się z przesłanki zawierającej osadzoną klauzulę, a odpowiadająca jej hipoteza jest wyodrębnieniem tej klauzuli. Używamy podzbioru danych, które miały zgodność między adnotatorami powyżej 0,85. Dane są niezrównoważone (stosunkowo mniej neutralnych przykładów), więc oceniamy przy użyciu dokładności i F1, gdzie dla wielu klas F1 obliczamy nieważoną średnią F1 na klasę.

  • Strona główna : https://github.com/mcdm/CommitmentBank

  • Rozmiar pliku do pobrania : 73.71 KiB

  • Rozmiar zbioru danych : 229.28 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 250
'train' 250
'validation' 56
  • Struktura funkcji :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
hipoteza Tekst strunowy
idx Napinacz int32
etykieta Etykieta klasy int64
przesłanka Tekst strunowy
  • Cytat :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • Opis konfiguracji: Zbiór danych The Choice Of Plausible Alternatives (COPA, Roemmele i in., 2011) jest zadaniem rozumowania przyczynowego, w którym system otrzymuje przesłankę i dwie możliwe alternatywy. System musi wybrać alternatywę, która ma bardziej prawdopodobny związek przyczynowy z przesłanką. Metoda zastosowana do konstrukcji alternatyw zapewnia, że ​​rozwiązanie zadania wymaga rozumowania przyczynowego. Przykłady dotyczą albo alternatywnych możliwych przyczyn, albo alternatywnych możliwych skutków zdania przesłanki, któremu towarzyszy proste pytanie ujednoznaczniające między dwoma typami instancji dla modelu. Wszystkie przykłady są wykonane ręcznie i koncentrują się na tematach z blogów internetowych i encyklopedii związanej z fotografią. Zgodnie z zaleceniami autorów oceniamy za pomocą dokładności.

  • Strona główna : http://people.ict.usc.edu/~gordon/copa.html

  • Rozmiar pliku do pobrania : 42.96 KiB

  • Rozmiar zbioru danych : 196.00 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 500
'train' 400
'validation' 100
  • Struktura funkcji :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
wybór1 Tekst strunowy
wybór2 Tekst strunowy
idx Napinacz int32
etykieta Etykieta klasy int64
przesłanka Tekst strunowy
pytanie Tekst strunowy
  • Cytat :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Opis konfiguracji: Zestaw danych wielozdaniowego czytania ze zrozumieniem (MultiRC, Khashabi i in., 2018) to zadanie polegające na odpowiadaniu na pytania prawda/fałsz. Każdy przykład składa się z akapitu kontekstu, pytania dotyczącego tego akapitu oraz listy możliwych odpowiedzi na to pytanie, które muszą być oznaczone jako prawda lub fałsz. Odpowiadanie na pytania (QA) to popularny problem z wieloma zestawami danych. Używamy MultiRC ze względu na szereg pożądanych właściwości: (i) każde pytanie może mieć wiele możliwych poprawnych odpowiedzi, więc każda para pytanie-odpowiedź musi być oceniana niezależnie od innych par, (ii) pytania są zaprojektowane w taki sposób, że udzielenie odpowiedzi na każde pytanie wymaga wyciąganie faktów z wielu zdań kontekstowych oraz (iii) format par pytanie-odpowiedź bardziej pasuje do API innych zadań SuperGLUE niż ekstrakcyjne QA oparte na rozpiętości. Akapity pochodzą z siedmiu dziedzin, w tym wiadomości, beletrystyki i tekstu historycznego.

  • Strona główna : https://cogcomp.org/multirc/

  • Rozmiar pliku do pobrania : 1.06 MiB

  • Rozmiar zestawu danych : 70.39 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 9693
'train' 27243
'validation' 4848
  • Struktura funkcji :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiadać Tekst strunowy
idx FunkcjeDict
idx/odpowiedź Napinacz int32
idx/akapit Napinacz int32
idx/pytanie Napinacz int32
etykieta Etykieta klasy int64
ustęp Tekst strunowy
pytanie Tekst strunowy
  • Cytat :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/nagranie

  • Opis konfiguracji : (Czytanie ze zrozumieniem z zestawem danych Commonsense Reasoning, Zhang i in., 2018) to zadanie kontroli jakości wielokrotnego wyboru. Każdy przykład składa się z artykułu informacyjnego i pytania w stylu Cloze dotyczącego artykułu, w którym jedna jednostka jest zamaskowana. System musi przewidzieć zamaskowaną jednostkę na podstawie podanej listy możliwych jednostek w podanym fragmencie, gdzie ta sama jednostka może być wyrażona przy użyciu wielu różnych form powierzchni, z których wszystkie są uważane za poprawne. Artykuły pochodzą z CNN i Daily Mail. Zgodnie z oryginalną pracą oceniamy z maksymalnym (ponad wszystkimi wzmiankami) poziomem tokena F1 i dokładnym dopasowaniem (EM).

  • Strona główna : https://sheng-z.github.io/ReCoRD-explorer/

  • Rozmiar pliku do pobrania : 49.36 MiB

  • Rozmiar zestawu danych : 166.40 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'test' 10 000
'train' 100730
'validation' 10 000
  • Struktura funkcji :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedzi Sekwencja (tekst) (Nic,) strunowy
podmioty Sekwencja (tekst) (Nic,) strunowy
idx FunkcjeDict
idx/przejście Napinacz int32
idx/zapytanie Napinacz int32
przejście Tekst strunowy
zapytanie Tekst strunowy
  • Cytat :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Opis konfiguracji: zestawy danych Recognizing Textual Entailment (RTE) pochodzą z serii corocznych konkursów dotyczących implikacji tekstowych, problemu przewidywania, czy dana przesłanka pociąga za sobą daną hipotezę (znaną również jako wnioskowanie w języku naturalnym, NLI). RTE było wcześniej zawarte w GLUE i używamy tych samych danych i formatu co poprzednio: Łączymy dane z RTE1 (Dagan i in., 2006), RTE2 (Bar Haim i in., 2006), RTE3 (Giampiccolo i in., 2007) i RTE5 (Bentivogli i in., 2009). Wszystkie zestawy danych są łączone i konwertowane na klasyfikację dwuklasową: wynikanie i brak_powiązania. Spośród wszystkich zadań GLUE, RTE było jednym z tych, które najbardziej skorzystały z transferu uczenia się, przeskakując od wydajności bliskiej losowej szansy (~ 56%) w momencie uruchomienia GLUE do 85% dokładności (Liu i in., 2019c) na początku czas pisania. Jednak biorąc pod uwagę ośmiopunktową lukę w odniesieniu do wydajności człowieka, zadanie to nie zostało jeszcze rozwiązane przez maszyny i spodziewamy się, że pozostała luka będzie trudna do wypełnienia.

  • Strona główna : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Rozmiar pliku do pobrania : 733.32 KiB

  • Rozmiar zestawu danych : 2.15 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 3000
'train' 2490
'validation' 277
  • Struktura funkcji :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
hipoteza Tekst strunowy
idx Napinacz int32
etykieta Etykieta klasy int64
przesłanka Tekst strunowy
  • Cytat :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Opis konfiguracji: zestaw danych Word-in-Context (WiC, Pilehvar i Camacho-Collados, 2019) obsługuje zadanie ujednoznaczniania sensu słów rzutowane jako klasyfikacja binarna na pary zdań. Biorąc pod uwagę dwa zdania i słowo polisemiczne (niejednoznaczne), które pojawia się w obu zdaniach, zadaniem jest ustalenie, czy słowo jest użyte w tym samym znaczeniu w obu zdaniach. Zdania pochodzą z WordNet (Miller, 1995), VerbNet (Schuler, 2005) i Wikisłownika. Śledzimy oryginalną pracę i oceniamy z dokładnością.

  • Strona główna : https://pilehvar.github.io/wic/

  • Rozmiar pliku do pobrania : 386.93 KiB

  • Rozmiar zestawu danych : 1.67 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1400
'train' 5428
'validation' 638
  • Struktura funkcji :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
koniec 1 Napinacz int32
koniec2 Napinacz int32
idx Napinacz int32
etykieta Etykieta klasy int64
zdanie 1 Tekst strunowy
zdanie2 Tekst strunowy
początek1 Napinacz int32
start2 Napinacz int32
słowo Tekst strunowy
  • Cytat :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Opis konfiguracji : The Winograd Schema Challenge (WSC, Levesque et al., 2012) to zadanie na czytanie ze zrozumieniem, w którym system musi przeczytać zdanie z zaimkiem i wybrać desygnat tego zaimka z listy do wyboru. Biorąc pod uwagę trudność tego zadania i pozostały zapas, włączyliśmy WSC do SuperGLUE i przekształciliśmy zbiór danych w formę odniesienia. Zadanie jest przedstawiane jako problem klasyfikacji binarnej, w przeciwieństwie do N-wielokrotnego wyboru, w celu wyizolowania zdolności modelu do zrozumienia powiązań korelacyjnych w zdaniu, w przeciwieństwie do różnych innych strategii, które mogą wejść w grę w warunkach wielokrotnego wyboru. Mając to na uwadze, tworzymy podział z 65% negatywną klasą większościową w zbiorze walidacyjnym, odzwierciedlającą rozkład ukrytego zestawu testowego i 52% negatywną klasą w zbiorze uczącym. Przykłady szkolenia i walidacji pochodzą z oryginalnego zestawu danych Winograd Schema (Levesque i in., 2012), a także z tych, które są dystrybuowane przez stowarzyszoną organizację Commonsense Reasoning. Przykłady testów pochodzą z książek beletrystycznych i zostały nam udostępnione przez autorów oryginalnego zestawu danych. Wcześniej wersja WSC przekształcona jako NLI zawarta w GLUE, znana jako WNLI. Nie poczyniono żadnych znaczących postępów w WNLI, a wiele zgłoszeń zdecydowało się przesłać tylko prognozy klas większościowych. WNLI było szczególnie trudne ze względu na przeciwstawny podział pociąg/programista: zdania przesłanek, które pojawiały się w zbiorze treningowym, czasami pojawiały się w zbiorze rozwojowym z inną hipotezą i odwróconą etykietą. Jeśli system zapamiętał zestaw treningowy bez znaczącego uogólniania, co było łatwe ze względu na mały rozmiar zestawu treningowego, mógłby działać znacznie poniżej szansy na zbiorze rozwojowym. Usuwamy ten przeciwstawny projekt w wersji SuperGLUE WSC, upewniając się, że żadne zdania nie są dzielone między zestawami uczącymi, walidującymi i testowymi.

Jednak zestawy walidacyjne i testowe pochodzą z różnych dziedzin, przy czym zestaw walidacyjny składa się z niejednoznacznych przykładów, takich jak zmiana jednego wyrażenia niebędącego rzeczownikiem, zmieni zależności koreferencyjne w zdaniu. Zestaw testów składa się tylko z prostszych przykładów, z dużą liczbą wyrażeń rzeczownikowych (a tym samym z większym wyborem dla modelu), ale z niewielką lub zerową niejednoznacznością.

Rozdzielać Przykłady
'test' 146
'train' 554
'validation' 104
  • Struktura funkcji :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
idx Napinacz int32
etykieta Etykieta klasy int64
zakres1_indeks Napinacz int32
zakres1_tekst Tekst strunowy
span2_index Napinacz int32
rozpiętość2_tekst Tekst strunowy
tekst Tekst strunowy
  • Cytat :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Opis konfiguracji : The Winograd Schema Challenge (WSC, Levesque et al., 2012) to zadanie na czytanie ze zrozumieniem, w którym system musi przeczytać zdanie z zaimkiem i wybrać desygnat tego zaimka z listy do wyboru. Biorąc pod uwagę trudność tego zadania i pozostały zapas, włączyliśmy WSC do SuperGLUE i przekształciliśmy zbiór danych w formę odniesienia. Zadanie jest przedstawiane jako problem klasyfikacji binarnej, w przeciwieństwie do N-wielokrotnego wyboru, w celu wyizolowania zdolności modelu do zrozumienia powiązań korelacyjnych w zdaniu, w przeciwieństwie do różnych innych strategii, które mogą wejść w grę w warunkach wielokrotnego wyboru. Mając to na uwadze, tworzymy podział z 65% negatywną klasą większościową w zbiorze walidacyjnym, odzwierciedlającą rozkład ukrytego zestawu testowego i 52% negatywną klasą w zbiorze uczącym. Przykłady szkolenia i walidacji pochodzą z oryginalnego zestawu danych Winograd Schema (Levesque i in., 2012), a także z tych, które są dystrybuowane przez stowarzyszoną organizację Commonsense Reasoning. Przykłady testów pochodzą z książek beletrystycznych i zostały nam udostępnione przez autorów oryginalnego zbioru danych. Wcześniej wersja WSC przekształcona jako NLI zawarta w GLUE, znana jako WNLI. Nie poczyniono żadnych znaczących postępów w WNLI, a wiele zgłoszeń zdecydowało się przesłać tylko prognozy klas większościowych. WNLI było szczególnie trudne ze względu na przeciwstawny podział pociąg/programista: zdania przesłanek, które pojawiały się w zbiorze treningowym, czasami pojawiały się w zbiorze rozwojowym z inną hipotezą i odwróconą etykietą. Jeśli system zapamiętał zestaw treningowy bez znaczącego uogólniania, co było łatwe ze względu na mały rozmiar zestawu treningowego, mógłby działać znacznie poniżej szansy na zbiorze rozwojowym. Usuwamy ten przeciwstawny projekt w wersji SuperGLUE WSC, upewniając się, że żadne zdania nie są dzielone między zestawami uczącymi, walidującymi i testowymi.

Jednak zestawy walidacyjne i testowe pochodzą z różnych dziedzin, przy czym zestaw walidacyjny składa się z niejednoznacznych przykładów, takich jak zmiana jednego wyrażenia niebędącego rzeczownikiem, zmieni zależności koreferencyjne w zdaniu. Zestaw testów składa się tylko z prostszych przykładów, z dużą liczbą wyrażeń rzeczownikowych (a tym samym z większym wyborem dla modelu), ale z niewielką lub zerową niejednoznacznością.

Ta wersja rozwiązuje problemy, w których rozpiętości nie są w rzeczywistości podciągami tekstu.

Rozdzielać Przykłady
'test' 146
'train' 554
'validation' 104
  • Struktura funkcji :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
idx Napinacz int32
etykieta Etykieta klasy int64
zakres1_indeks Napinacz int32
zakres1_tekst Tekst strunowy
span2_index Napinacz int32
rozpiętość2_tekst Tekst strunowy
tekst Tekst strunowy
  • Cytat :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/axb

  • Opis konfiguracji : opracowany przez ekspertów zestaw danych diagnostycznych, który automatycznie testuje modele pod kątem szerokiego zakresu wiedzy językowej, zdroworozsądkowej i ogólnoświatowej. Każdy przykład w tej szeroko zakrojonej diagnostyce to para zdań oznaczona trójstronną relacją implikacji (powiązanie, neutralność lub sprzeczność) i oznaczona etykietami wskazującymi zjawiska charakteryzujące relację między tymi dwoma zdaniami. Zgłoszenia do tabeli liderów GLUE muszą zawierać prognozy z klasyfikatora MultiNLI zgłoszenia w zbiorze danych diagnostycznych, a analizy wyników zostały pokazane obok głównej tabeli liderów. Ponieważ to szeroko zakrojone zadanie diagnostyczne okazało się trudne dla najlepszych modeli, zachowujemy je w SuperGLUE. Ponieważ jednak MultiNLI nie jest częścią SuperGLUE, zwijamy sprzeczność i neutralność w jedną etykietę not_entailment i prosimy, aby zgłoszenia zawierały prognozy dotyczące zestawu wynikowego z modelu używanego do zadania RTE.

  • Strona główna : https://gluebenchmark.com/diagnostics

  • Rozmiar pliku do pobrania : 33.15 KiB

  • Rozmiar zbioru danych : 290.53 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1104
  • Struktura funkcji :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
idx Napinacz int32
etykieta Etykieta klasy int64
zdanie 1 Tekst strunowy
zdanie2 Tekst strunowy
  • Cytat :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Opis konfiguracji: Winogender jest przeznaczony do pomiaru odchyleń płci w systemach rozwiązywania korelacji. Używamy wersji Diverse Natural Language Inference Collection (DNC; Poliak i in., 2018), która przedstawia Winogendera jako zadanie wynikające z tekstu. Każdy przykład składa się ze zdania przesłanki z zaimkiem męskim lub żeńskim oraz hipotezy podającej możliwy poprzednik zaimka. Przykłady występują w parach minimalnych, gdzie jedyną różnicą między przykładem a jego parą jest rodzaj zaimka w przesłance. Wydajność w Winogender jest mierzona zarówno dokładnością, jak i wynikiem parytetu płci: procentem minimalnych par, dla których prognozy są takie same. Zauważmy, że system może w prosty sposób uzyskać doskonały wynik parytetu płci, odgadując tę ​​samą klasę dla wszystkich przykładów, więc wysoki wynik parytetu płci jest bez znaczenia, jeśli nie towarzyszy mu wysoka dokładność. Jako test diagnostyczny uprzedzeń ze względu na płeć, uważamy, że schematy mają wysoką pozytywną wartość predykcyjną i niską negatywną wartość predykcyjną; to znaczy mogą wykazać obecność uprzedzeń ze względu na płeć w systemie, ale nie mogą udowodnić ich braku.

  • Strona główna : https://github.com/rudinger/winogender-schemas

  • Rozmiar pliku do pobrania : 10.17 KiB

  • Rozmiar zbioru danych : 69.75 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 356
  • Struktura funkcji :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
hipoteza Tekst strunowy
idx Napinacz int32
etykieta Etykieta klasy int64
przesłanka Tekst strunowy
  • Cytat :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.