- Descrição :
SuperGLUE ( https://super.gluebenchmark.com/ ) é um novo benchmark estilizado após o GLUE com um novo conjunto de tarefas de compreensão de linguagem mais difíceis, recursos aprimorados e uma nova tabela de classificação pública.
Documentação Adicional : Explore em Papers With Code
Código -fonte:
tfds.text.SuperGlue
Versões :
-
1.0.2
(padrão): Sem notas de versão.
-
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
super_glue/boolq (configuração padrão)
Descrição da configuração : BoolQ (Boolean Questions, Clark et al., 2019a) é uma tarefa de controle de qualidade em que cada exemplo consiste em uma passagem curta e uma pergunta sim/não sobre a passagem. As perguntas são fornecidas anonimamente e não solicitadas pelos usuários do mecanismo de busca Google e, posteriormente, combinadas com um parágrafo de um artigo da Wikipédia contendo a resposta. Seguindo o trabalho original, avaliamos com precisão.
Página inicial : https://github.com/google-research-datasets/boolean-questions
Tamanho do download :
3.93 MiB
Tamanho do conjunto de dados :
10.75 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.245 |
'train' | 9.427 |
'validation' | 3.270 |
- Estrutura de recursos :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
passagem | Texto | corda | ||
pergunta | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/cb
Descrição da configuração : O CommitmentBank (De Marneffe et al., 2019) é um corpus de textos curtos em que pelo menos uma frase contém uma cláusula incorporada. Cada uma dessas cláusulas incorporadas é anotada com o grau em que esperamos que a pessoa que escreveu o texto esteja comprometida com a veracidade da cláusula. A tarefa resultante enquadrada como vinculação textual de três classes em exemplos extraídos do Wall Street Journal, ficção do British National Corpus e Switchboard. Cada exemplo consiste em uma premissa contendo uma cláusula embutida e a hipótese correspondente é a extração dessa cláusula. Usamos um subconjunto dos dados que tiveram concordância entre anotadores acima de 0,85. Os dados são desequilibrados (relativamente menos exemplos neutros), então avaliamos usando precisão e F1, onde para F1 multiclasse calculamos a média não ponderada do F1 por classe.
Página inicial : https://github.com/mcdm/CommitmentBank
Tamanho do download :
73.71 KiB
Tamanho do conjunto de dados :
229.28 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- Estrutura de recursos :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
hipótese | Texto | corda | ||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
premissa | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_cola/copa
Descrição da configuração : O conjunto de dados Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) é uma tarefa de raciocínio causal na qual um sistema recebe uma sentença de premissa e duas alternativas possíveis. O sistema deve escolher a alternativa que tem a relação causal mais plausível com a premissa. O método utilizado para a construção das alternativas garante que a tarefa requer raciocínio causal para ser resolvida. Os exemplos lidam com possíveis causas alternativas ou possíveis efeitos alternativos da sentença de premissa, acompanhados por uma pergunta simples que elimina a ambiguidade entre os dois tipos de instância para o modelo. Todos os exemplos são feitos à mão e se concentram em tópicos de blogs online e uma enciclopédia relacionada à fotografia. Seguindo a recomendação dos autores, avaliamos com precisão.
Página inicial : http://people.ict.usc.edu/~gordon/copa.html
Tamanho do download :
42.96 KiB
Tamanho do conjunto de dados :
196.00 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- Estrutura de recursos :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
escolha1 | Texto | corda | ||
escolha2 | Texto | corda | ||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
premissa | Texto | corda | ||
pergunta | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/multirc
Descrição da configuração : o conjunto de dados de compreensão de leitura de várias frases (MultiRC, Khashabi et al., 2018) é uma tarefa de resposta a perguntas verdadeiras/falsas. Cada exemplo consiste em um parágrafo de contexto, uma pergunta sobre esse parágrafo e uma lista de possíveis respostas para essa pergunta que devem ser rotuladas como verdadeiras ou falsas. A resposta a perguntas (QA) é um problema popular com muitos conjuntos de dados. Usamos MultiRC por causa de uma série de propriedades desejáveis: (i) cada pergunta pode ter várias respostas corretas possíveis, então cada par pergunta-resposta deve ser avaliado independentemente de outros pares, (ii) as perguntas são projetadas de forma que responder a cada pergunta requer extrair fatos de várias sentenças de contexto e (iii) o formato do par de perguntas e respostas corresponde mais à API de outras tarefas do SuperGLUE do que o controle de qualidade extrativo baseado em span. Os parágrafos são extraídos de sete domínios, incluindo notícias, ficção e texto histórico.
Página inicial : https://cogcomp.org/multirc/
Tamanho do download :
1.06 MiB
Tamanho do conjunto de dados :
70.39 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 9.693 |
'train' | 27.243 |
'validation' | 4.848 |
- Estrutura de recursos :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
responda | Texto | corda | ||
idx | RecursosDict | |||
idx/resposta | tensor | int32 | ||
idx/parágrafo | tensor | int32 | ||
idx/pergunta | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
parágrafo | Texto | corda | ||
pergunta | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_cola/registro
Descrição da configuração : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) é uma tarefa de controle de qualidade de múltipla escolha. Cada exemplo consiste em um artigo de notícias e uma pergunta estilo Cloze sobre o artigo em que uma entidade é mascarada. O sistema deve prever a entidade mascarada a partir de uma determinada lista de entidades possíveis na passagem fornecida, onde a mesma entidade pode ser expressa usando várias formas de superfície diferentes, todas consideradas corretas. Os artigos são extraídos da CNN e do Daily Mail. Seguindo o trabalho original, avaliamos com máximo (sobre todas as menções) nível de token F1 e correspondência exata (EM).
Página inicial : https://sheng-z.github.io/ReCoRD-explorer/
Tamanho do download :
49.36 MiB
Tamanho do conjunto de dados :
166.40 MiB
Cache automático ( documentação ): Sim (teste, validação), somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 10.000 |
'train' | 100.730 |
'validation' | 10.000 |
- Estrutura de recursos :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
respostas | Sequência (Texto) | (Nenhum,) | corda | |
entidades | Sequência (Texto) | (Nenhum,) | corda | |
idx | RecursosDict | |||
idx/passagem | tensor | int32 | ||
idx/consulta | tensor | int32 | ||
passagem | Texto | corda | ||
consulta | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_cola/rte
Descrição da configuração : Os conjuntos de dados Recognizing Textual Entailment (RTE) vêm de uma série de competições anuais sobre vinculação textual, o problema de prever se uma determinada sentença de premissa acarreta uma determinada sentença de hipótese (também conhecida como inferência de linguagem natural, NLI). RTE foi incluído anteriormente no GLUE e usamos os mesmos dados e formato de antes: mesclamos dados de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009). Todos os conjuntos de dados são combinados e convertidos em classificação de duas classes: vinculação e não vinculação. De todas as tarefas do GLUE, o RTE estava entre os que mais se beneficiaram do aprendizado por transferência, saltando de um desempenho quase aleatório (~ 56%) no momento do lançamento do GLUE para 85% de precisão (Liu et al., 2019c) no tempo de escrita. Dada a diferença de oito pontos em relação ao desempenho humano, no entanto, a tarefa ainda não foi resolvida por máquinas, e esperamos que a diferença restante seja difícil de fechar.
Página inicial : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Tamanho do download :
733.32 KiB
Tamanho do conjunto de dados :
2.15 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.000 |
'train' | 2.490 |
'validation' | 277 |
- Estrutura de recursos :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
hipótese | Texto | corda | ||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
premissa | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wic
Descrição da configuração : o conjunto de dados Word-in-Context (WiC, Pilehvar e Camacho-Collados, 2019) oferece suporte a uma tarefa de desambiguação de sentido de palavra lançada como classificação binária sobre pares de sentenças. Dadas duas sentenças e uma palavra polissêmica (sentido ambíguo) que aparece em ambas as sentenças, a tarefa é determinar se a palavra é usada com o mesmo sentido em ambas as sentenças. As sentenças são retiradas do WordNet (Miller, 1995), VerbNet (Schuler, 2005) e Wikcionário. Seguimos o trabalho original e avaliamos com precisão.
Página inicial : https://pilehvar.github.io/wic/
Tamanho do download :
386.93 KiB
Tamanho do conjunto de dados :
1.67 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.400 |
'train' | 5.428 |
'validation' | 638 |
- Estrutura de recursos :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
fim1 | tensor | int32 | ||
fim2 | tensor | int32 | ||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
frase1 | Texto | corda | ||
frase2 | Texto | corda | ||
início1 | tensor | int32 | ||
início2 | tensor | int32 | ||
palavra | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc
- Descrição da configuração : O Winograd Schema Challenge (WSC, Levesque et al., 2012) é uma tarefa de compreensão de leitura na qual um sistema deve ler uma frase com um pronome e selecionar o referente desse pronome em uma lista de opções. Dada a dificuldade dessa tarefa e o espaço restante ainda, incluímos o WSC no SuperGLUE e reformulamos o conjunto de dados em seu formulário de correferência. A tarefa é lançada como um problema de classificação binária, em oposição à N-múltipla escolha, a fim de isolar a capacidade do modelo de entender os links de correferência dentro de uma sentença, em oposição a várias outras estratégias que podem entrar em jogo em condições de múltipla escolha. Com isso em mente, criamos uma divisão com 65% de classe de maioria negativa no conjunto de validação, refletindo a distribuição do conjunto de teste oculto e 52% de classe negativa no conjunto de treinamento. Os exemplos de treinamento e validação são extraídos do conjunto de dados original do Winograd Schema (Levesque et al., 2012), bem como daqueles distribuídos pela organização afiliada Commonsense Reasoning. Os exemplos de teste são derivados de livros de ficção e foram compartilhados conosco pelos autores do conjunto de dados original. Anteriormente, uma versão do WSC reformulada como NLI incluída no GLUE, conhecida como WNLI. Nenhum progresso substancial foi feito no WNLI, com muitos envios optando por enviar apenas previsões de classes majoritárias. O WNLI tornou-se especialmente difícil devido a uma divisão adversária de treinamento/desenvolvimento: as sentenças de premissa que apareciam no conjunto de treinamento às vezes apareciam no conjunto de desenvolvimento com uma hipótese diferente e um rótulo invertido. Se um sistema memorizasse o conjunto de treinamento sem generalizar significativamente, o que era fácil devido ao pequeno tamanho do conjunto de treinamento, ele poderia ter um desempenho muito abaixo do esperado no conjunto de desenvolvimento. Removemos esse design adversário na versão SuperGLUE do WSC, garantindo que nenhuma sentença seja compartilhada entre os conjuntos de treinamento, validação e teste.
No entanto, os conjuntos de validação e teste vêm de domínios diferentes, com o conjunto de validação consistindo em exemplos ambíguos, de modo que a alteração de uma palavra de frase não nominal alterará as dependências de co-referência na frase. O conjunto de teste consiste apenas em exemplos mais diretos, com um alto número de sintagmas nominais (e, portanto, mais opções para o modelo), mas com pouca ou nenhuma ambiguidade.
Página inicial : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Tamanho do download :
31.98 KiB
Tamanho do conjunto de dados :
219.70 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Estrutura de recursos :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
span1_index | tensor | int32 | ||
span1_text | Texto | corda | ||
span2_index | tensor | int32 | ||
span2_text | Texto | corda | ||
texto | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc.fixed
- Descrição da configuração : O Winograd Schema Challenge (WSC, Levesque et al., 2012) é uma tarefa de compreensão de leitura na qual um sistema deve ler uma frase com um pronome e selecionar o referente desse pronome em uma lista de opções. Dada a dificuldade dessa tarefa e o espaço restante ainda, incluímos o WSC no SuperGLUE e reformulamos o conjunto de dados em seu formulário de correferência. A tarefa é lançada como um problema de classificação binária, em oposição à N-múltipla escolha, a fim de isolar a capacidade do modelo de entender os links de correferência dentro de uma sentença, em oposição a várias outras estratégias que podem entrar em jogo em condições de múltipla escolha. Com isso em mente, criamos uma divisão com 65% de classe de maioria negativa no conjunto de validação, refletindo a distribuição do conjunto de teste oculto e 52% de classe negativa no conjunto de treinamento. Os exemplos de treinamento e validação são extraídos do conjunto de dados original do Winograd Schema (Levesque et al., 2012), bem como daqueles distribuídos pela organização afiliada Commonsense Reasoning. Os exemplos de teste são derivados de livros de ficção e foram compartilhados conosco pelos autores do conjunto de dados original. Anteriormente, uma versão do WSC reformulada como NLI incluída no GLUE, conhecida como WNLI. Nenhum progresso substancial foi feito no WNLI, com muitos envios optando por enviar apenas previsões de classes majoritárias. O WNLI tornou-se especialmente difícil devido a uma divisão adversária de treinamento/desenvolvimento: as sentenças de premissa que apareciam no conjunto de treinamento às vezes apareciam no conjunto de desenvolvimento com uma hipótese diferente e um rótulo invertido. Se um sistema memorizasse o conjunto de treinamento sem generalizar significativamente, o que era fácil devido ao pequeno tamanho do conjunto de treinamento, ele poderia ter um desempenho muito abaixo do esperado no conjunto de desenvolvimento. Removemos esse design adversário na versão SuperGLUE do WSC, garantindo que nenhuma sentença seja compartilhada entre os conjuntos de treinamento, validação e teste.
No entanto, os conjuntos de validação e teste vêm de domínios diferentes, com o conjunto de validação consistindo em exemplos ambíguos, de modo que a alteração de uma palavra de frase não nominal alterará as dependências de co-referência na frase. O conjunto de teste consiste apenas em exemplos mais diretos, com um alto número de sintagmas nominais (e, portanto, mais opções para o modelo), mas com pouca ou nenhuma ambiguidade.
Esta versão corrige problemas em que os intervalos não são realmente substrings do texto.
Página inicial : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Tamanho do download :
31.98 KiB
Tamanho do conjunto de dados :
219.70 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Estrutura de recursos :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
span1_index | tensor | int32 | ||
span1_text | Texto | corda | ||
span2_index | tensor | int32 | ||
span2_text | Texto | corda | ||
texto | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axb
Descrição da configuração : um conjunto de dados de diagnóstico construído por especialistas que testa modelos automaticamente para uma ampla gama de conhecimentos linguísticos, de senso comum e mundiais. Cada exemplo neste diagnóstico de ampla cobertura é um par de sentenças marcadas com uma relação de implicação de três vias (implicação, neutro ou contradição) e marcadas com rótulos que indicam os fenômenos que caracterizam a relação entre as duas sentenças. Os envios para a tabela de classificação do GLUE devem incluir previsões do classificador MultiNLI da submissão no conjunto de dados de diagnóstico, e as análises dos resultados foram mostradas ao lado da tabela de classificação principal. Como essa tarefa de diagnóstico de ampla cobertura se mostrou difícil para os modelos de ponta, nós a mantemos no SuperGLUE. No entanto, como o MultiNLI não faz parte do SuperGLUE, reduzimos a contradição e o neutro em um único rótulo not_entailment e solicitamos que os envios incluam previsões no conjunto resultante do modelo usado para a tarefa RTE.
Página inicial : https://gluebenchmark.com/diagnostics
Tamanho do download :
33.15 KiB
Tamanho do conjunto de dados :
290.53 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.104 |
- Estrutura de recursos :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
frase1 | Texto | corda | ||
frase2 | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axg
Descrição da configuração : Winogender foi projetado para medir o viés de gênero em sistemas de resolução de correferência. Usamos a versão Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) que lança Winogênero como uma tarefa de vinculação textual. Cada exemplo consiste em uma frase de premissa com um pronome masculino ou feminino e uma hipótese dando um possível antecedente do pronome. Exemplos ocorrem em pares mínimos, onde a única diferença entre um exemplo e seu par é o gênero do pronome na premissa. O desempenho no Winogender é medido com precisão e pontuação de paridade de gênero: a porcentagem de pares mínimos para os quais as previsões são as mesmas. Notamos que um sistema pode obter trivialmente uma pontuação perfeita de paridade de gênero ao adivinhar a mesma classe para todos os exemplos, portanto, uma pontuação alta de paridade de gênero não tem sentido, a menos que seja acompanhada de alta precisão. Como um teste diagnóstico de viés de gênero, vemos os esquemas como tendo alto valor preditivo positivo e baixo valor preditivo negativo; ou seja, podem demonstrar a presença de viés de gênero em um sistema, mas não provar sua ausência.
Página inicial : https://github.com/rudinger/winogender-schemas
Tamanho do download :
10.17 KiB
Tamanho do conjunto de dados :
69.75 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 356 |
- Estrutura de recursos :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
hipótese | Texto | corda | ||
idx | tensor | int32 | ||
etiqueta | ClassLabel | int64 | ||
premissa | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.