Super pegamento

  • Descripción :

SuperGLUE ( https://super.gluebenchmark.com/ ) es un nuevo punto de referencia con el estilo de GLUE con un nuevo conjunto de tareas de comprensión de idiomas más difíciles, recursos mejorados y una nueva tabla de clasificación pública.

super_glue/boolq (configuración predeterminada)

  • Descripción de la configuración : BoolQ (Boolean Questions, Clark et al., 2019a) es una tarea de control de calidad en la que cada ejemplo consta de un breve pasaje y una pregunta de sí/no sobre el pasaje. Las preguntas son proporcionadas de forma anónima y no solicitada por los usuarios del motor de búsqueda de Google, y luego se combinan con un párrafo de un artículo de Wikipedia que contiene la respuesta. Siguiendo el trabajo original, evaluamos con precisión.

  • Página de inicio: https://github.com/google-research-datasets/boolean-questions

  • Tamaño de la descarga : 3.93 MiB

  • Tamaño del conjunto de datos : 10.75 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 3,245
'train' 9,427
'validation' 3,270
  • Estructura de características :
FeaturesDict({
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'passage': Text(shape=(), dtype=string),
   
'question': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
paso Texto cuerda
pregunta Texto cuerda
  • Cita :
@inproceedings{clark2019boolq,
  title
={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author
={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle
={NAACL},
  year
={2019}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/cb

  • Descripción de la configuración : CommitmentBank (De Marneffe et al., 2019) es un corpus de textos breves en los que al menos una oración contiene una cláusula incrustada. Cada una de estas cláusulas incrustadas está anotada con el grado en que esperamos que la persona que escribió el texto esté comprometida con la verdad de la cláusula. La tarea resultante se enmarca como una vinculación textual de tres clases en ejemplos extraídos del Wall Street Journal, ficción del British National Corpus y Switchboard. Cada ejemplo consta de una premisa que contiene una cláusula incrustada y la hipótesis correspondiente es la extracción de esa cláusula. Usamos un subconjunto de los datos que tenían una concordancia entre anotadores superior a 0,85. Los datos están desequilibrados (relativamente menos ejemplos neutrales), por lo que evaluamos usando precisión y F1, donde para F1 multiclase calculamos el promedio no ponderado de F1 por clase.

  • Página de inicio: https://github.com/mcdm/CommitmentBank

  • Tamaño de la descarga : 73.71 KiB

  • Tamaño del conjunto de datos : 229.28 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 250
'train' 250
'validation' 56
  • Estructura de características :
FeaturesDict({
   
'hypothesis': Text(shape=(), dtype=string),
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@article{de marneff_simons_tonhauser_2019,
  title
={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal
={proceedings of Sinn und Bedeutung 23},
  author
={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year
={2019}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/copa

  • Descripción de la configuración : El conjunto de datos Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) es una tarea de razonamiento causal en la que se le da a un sistema una oración de premisa y dos alternativas posibles. El sistema debe elegir la alternativa que tenga la relación causal más plausible con la premisa. El método utilizado para la construcción de las alternativas asegura que la tarea requiere un razonamiento causal para resolverla. Los ejemplos tratan de posibles causas alternativas o posibles efectos alternativos de la oración de premisa, acompañados de una pregunta simple que elimina la ambigüedad entre los dos tipos de instancias para el modelo. Todos los ejemplos están hechos a mano y se centran en temas de blogs en línea y una enciclopedia relacionada con la fotografía. Siguiendo la recomendación de los autores, evaluamos usando precisión.

  • Página de inicio: http://people.ict.usc.edu/~gordon/copa.html

  • Tamaño de la descarga : 42.96 KiB

  • Tamaño del conjunto de datos : 196.00 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 500
'train' 400
'validation' 100
  • Estructura de características :
FeaturesDict({
   
'choice1': Text(shape=(), dtype=string),
   
'choice2': Text(shape=(), dtype=string),
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'premise': Text(shape=(), dtype=string),
   
'question': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
elección1 Texto cuerda
elección2 Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
pregunta Texto cuerda
  • Cita :
@inproceedings{roemmele2011choice,
  title
={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author
={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle
={2011 AAAI Spring Symposium Series},
  year
={2011}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/multirc

  • Descripción de la configuración : el conjunto de datos de comprensión de lectura de oraciones múltiples (MultiRC, Khashabi et al., 2018) es una tarea de respuesta a preguntas de verdadero/falso. Cada ejemplo consta de un párrafo de contexto, una pregunta sobre ese párrafo y una lista de posibles respuestas a esa pregunta que deben etiquetarse como verdadero o falso. La respuesta a preguntas (QA) es un problema popular con muchos conjuntos de datos. Usamos MultiRC debido a una serie de propiedades deseables: (i) cada pregunta puede tener múltiples respuestas correctas posibles, por lo que cada par de preguntas y respuestas debe evaluarse independientemente de otros pares, (ii) las preguntas están diseñadas de tal manera que para responder a cada pregunta se requiere extraer hechos de múltiples oraciones de contexto, y (iii) el formato de par de preguntas y respuestas coincide más con la API de otras tareas de SuperGLUE que el control de calidad extractivo basado en intervalos. Los párrafos se extraen de siete dominios que incluyen noticias, ficción y texto histórico.

  • Página de inicio: https://cogcomp.org/multirc/

  • Tamaño de la descarga : 1.06 MiB

  • Tamaño del conjunto de datos : 70.39 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 9,693
'train' 27,243
'validation' 4,848
  • Estructura de características :
FeaturesDict({
   
'answer': Text(shape=(), dtype=string),
   
'idx': FeaturesDict({
       
'answer': int32,
       
'paragraph': int32,
       
'question': int32,
   
}),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'paragraph': Text(shape=(), dtype=string),
   
'question': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
responder Texto cuerda
idx CaracterísticasDict
idx/respuesta Tensor int32
idx/párrafo Tensor int32
idx/pregunta Tensor int32
etiqueta Etiqueta de clase int64
párrafo Texto cuerda
pregunta Texto cuerda
  • Cita :
@inproceedings{MultiRC2018,
    author
= {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title
= {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle
= {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year
= {2018}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/registro

  • Descripción de la configuración : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) es una tarea de control de calidad de opción múltiple. Cada ejemplo consta de un artículo de noticias y una pregunta estilo Cloze sobre el artículo en el que se oculta una entidad. El sistema debe predecir la entidad enmascarada a partir de una lista dada de posibles entidades en el pasaje provisto, donde la misma entidad puede expresarse usando múltiples formas de superficie diferentes, todas las cuales se consideran correctas. Los artículos se extraen de CNN y Daily Mail. Siguiendo el trabajo original, evaluamos con máximo (sobre todas las menciones) F1 de nivel de token y coincidencia exacta (EM).

  • Página de inicio: https://sheng-z.github.io/ReCoRD-explorer/

  • Tamaño de la descarga : 49.36 MiB

  • Tamaño del conjunto de datos : 166.40 MiB

  • Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)

  • Divisiones :

Separar Ejemplos
'test' 10,000
'train' 100,730
'validation' 10,000
  • Estructura de características :
FeaturesDict({
   
'answers': Sequence(Text(shape=(), dtype=string)),
   
'entities': Sequence(Text(shape=(), dtype=string)),
   
'idx': FeaturesDict({
       
'passage': int32,
       
'query': int32,
   
}),
   
'passage': Text(shape=(), dtype=string),
   
'query': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
respuestas Secuencia (Texto) (Ninguna,) cuerda
entidades Secuencia (Texto) (Ninguna,) cuerda
idx CaracterísticasDict
idx/pasaje Tensor int32
idx/consulta Tensor int32
paso Texto cuerda
consulta Texto cuerda
  • Cita :
@article{zhang2018record,
  title
={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author
={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal
={arXiv preprint arXiv:1810.12885},
  year
={2018}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/rte

  • Descripción de la configuración : los conjuntos de datos de reconocimiento de vinculación textual (RTE) provienen de una serie de concursos anuales sobre vinculación textual, el problema de predecir si una oración de premisa dada implica una oración de hipótesis dada (también conocida como inferencia de lenguaje natural, NLI). RTE se incluyó previamente en GLUE, y usamos los mismos datos y formato que antes: fusionamos datos de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), y RTE5 (Bentivogli et al., 2009). Todos los conjuntos de datos se combinan y se convierten a una clasificación de dos clases: vinculación y no vinculación. De todas las tareas de GLUE, RTE estuvo entre las que más se beneficiaron del aprendizaje de transferencia, pasando de un rendimiento casi aleatorio (~56 %) en el momento del lanzamiento de GLUE a un 85 % de precisión (Liu et al., 2019c) en el hora de escribir. Sin embargo, dada la brecha de ocho puntos con respecto al desempeño humano, las máquinas aún no resuelven la tarea, y esperamos que la brecha restante sea difícil de cerrar.

  • Página de inicio: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Tamaño de la descarga : 733.32 KiB

  • Tamaño del conjunto de datos : 2.15 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 3,000
'train' 2,490
'validation' 277
  • Estructura de características :
FeaturesDict({
   
'hypothesis': Text(shape=(), dtype=string),
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@inproceedings{dagan2005pascal,
  title
={The PASCAL recognising textual entailment challenge},
  author
={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle
={Machine Learning Challenges Workshop},
  pages
={177--190},
  year
={2005},
  organization
={Springer}
}
@inproceedings{bar2006second,
  title
={The second pascal recognising textual entailment challenge},
  author
={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle
={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume
={6},
  number
={1},
  pages
={6--4},
  year
={2006},
  organization
={Venice}
}
@inproceedings{giampiccolo2007third,
  title
={The third pascal recognizing textual entailment challenge},
  author
={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle
={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages
={1--9},
  year
={2007},
  organization
={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title
={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author
={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle
={TAC},
  year
={2009}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/wic

  • Descripción de la configuración : el conjunto de datos de Word-in-Context (WiC, Pilehvar y Camacho-Collados, 2019) admite una tarea de desambiguación del sentido de las palabras como clasificación binaria sobre pares de oraciones. Dadas dos oraciones y una palabra polisémica (de sentido ambiguo) que aparece en ambas oraciones, la tarea es determinar si la palabra se usa con el mismo sentido en ambas oraciones. Las oraciones se extraen de WordNet (Miller, 1995), VerbNet (Schuler, 2005) y Wiktionary. Seguimos el trabajo original y evaluamos con precisión.

  • Página de inicio: https://pilehvar.github.io/wic/

  • Tamaño de la descarga : 386.93 KiB

  • Tamaño del conjunto de datos : 1.67 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,400
'train' 5,428
'validation' 638
  • Estructura de características :
FeaturesDict({
   
'end1': int32,
   
'end2': int32,
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'sentence1': Text(shape=(), dtype=string),
   
'sentence2': Text(shape=(), dtype=string),
   
'start1': int32,
   
'start2': int32,
   
'word': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
fin1 Tensor int32
fin2 Tensor int32
idx Tensor int32
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
inicio1 Tensor int32
inicio2 Tensor int32
palabra Texto cuerda
  • Cita :
@article{DBLP:journals/corr/abs-1808-09121,
  author
={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/wsc

  • Descripción de la configuración : El Winograd Schema Challenge (WSC, Levesque et al., 2012) es una tarea de comprensión de lectura en la que un sistema debe leer una oración con un pronombre y seleccionar el referente de ese pronombre de una lista de opciones. Dada la dificultad de esta tarea y el margen que aún queda, hemos incluido WSC en SuperGLUE y refundido el conjunto de datos en su forma de correferencia. La tarea se presenta como un problema de clasificación binaria, en oposición a N-opción múltiple, para aislar la capacidad del modelo para comprender los enlaces de correferencia dentro de una oración en oposición a varias otras estrategias que pueden entrar en juego en condiciones de opción múltiple. Con eso en mente, creamos una división con un 65 % de clase mayoritaria negativa en el conjunto de validación, que refleja la distribución del conjunto de prueba oculto, y un 52 % de clase negativa en el conjunto de entrenamiento. Los ejemplos de capacitación y validación se extraen del conjunto de datos original del esquema de Winograd (Levesque et al., 2012), así como de los distribuidos por la organización afiliada Commonsense Reasoning. Los ejemplos de prueba se derivan de libros de ficción y los autores del conjunto de datos original los han compartido con nosotros. Anteriormente, una versión de WSC refundida como NLI incluida en GLUE, conocida como WNLI. No se logró un progreso sustancial en WNLI, y muchas presentaciones optaron por enviar solo predicciones de clase mayoritaria. WNLI se hizo especialmente difícil debido a una división antagónica entre tren y desarrollo: las oraciones de premisa que aparecían en el conjunto de entrenamiento a veces aparecían en el conjunto de desarrollo con una hipótesis diferente y una etiqueta invertida. Si un sistema memorizó el conjunto de entrenamiento sin generalizar de manera significativa, lo cual fue fácil debido al pequeño tamaño del conjunto de entrenamiento, podría funcionar muy por debajo del azar en el conjunto de desarrollo. Eliminamos este diseño contradictorio en la versión SuperGLUE de WSC asegurándonos de que no se compartan frases entre los conjuntos de entrenamiento, validación y prueba.

Sin embargo, los conjuntos de validación y prueba provienen de diferentes dominios, y el conjunto de validación consta de ejemplos ambiguos, de modo que cambiar una palabra de frase no nominal cambiará las dependencias de correferencia en la oración. El conjunto de prueba consta solo de ejemplos más sencillos, con una gran cantidad de frases nominales (y, por lo tanto, más opciones para el modelo), pero poca o ninguna ambigüedad.

Separar Ejemplos
'test' 146
'train' 554
'validation' 104
  • Estructura de características :
FeaturesDict({
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'span1_index': int32,
   
'span1_text': Text(shape=(), dtype=string),
   
'span2_index': int32,
   
'span2_text': Text(shape=(), dtype=string),
   
'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
span1_index Tensor int32
span1_texto Texto cuerda
span2_index Tensor int32
span2_texto Texto cuerda
texto Texto cuerda
  • Cita :
@inproceedings{levesque2012winograd,
  title
={The winograd schema challenge},
  author
={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle
={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year
={2012}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fijo

  • Descripción de la configuración : El Winograd Schema Challenge (WSC, Levesque et al., 2012) es una tarea de comprensión de lectura en la que un sistema debe leer una oración con un pronombre y seleccionar el referente de ese pronombre de una lista de opciones. Dada la dificultad de esta tarea y el margen que aún queda, hemos incluido WSC en SuperGLUE y refundido el conjunto de datos en su forma de correferencia. La tarea se presenta como un problema de clasificación binaria, en oposición a N-opción múltiple, para aislar la capacidad del modelo para comprender los enlaces de correferencia dentro de una oración en oposición a varias otras estrategias que pueden entrar en juego en condiciones de opción múltiple. Con eso en mente, creamos una división con un 65 % de clase mayoritaria negativa en el conjunto de validación, que refleja la distribución del conjunto de prueba oculto, y un 52 % de clase negativa en el conjunto de entrenamiento. Los ejemplos de capacitación y validación se extraen del conjunto de datos original del esquema de Winograd (Levesque et al., 2012), así como de los distribuidos por la organización afiliada Commonsense Reasoning. Los ejemplos de prueba se derivan de libros de ficción y los autores del conjunto de datos original los han compartido con nosotros. Anteriormente, una versión de WSC refundida como NLI incluida en GLUE, conocida como WNLI. No se logró un progreso sustancial en WNLI, y muchas presentaciones optaron por enviar solo predicciones de clase mayoritaria. WNLI se hizo especialmente difícil debido a una división antagónica entre tren y desarrollo: las oraciones de premisa que aparecían en el conjunto de entrenamiento a veces aparecían en el conjunto de desarrollo con una hipótesis diferente y una etiqueta invertida. Si un sistema memorizó el conjunto de entrenamiento sin generalizar de manera significativa, lo cual fue fácil debido al pequeño tamaño del conjunto de entrenamiento, podría funcionar muy por debajo del azar en el conjunto de desarrollo. Eliminamos este diseño contradictorio en la versión SuperGLUE de WSC asegurándonos de que no se compartan frases entre los conjuntos de entrenamiento, validación y prueba.

Sin embargo, los conjuntos de validación y prueba provienen de diferentes dominios, y el conjunto de validación consta de ejemplos ambiguos, de modo que cambiar una palabra de frase no nominal cambiará las dependencias de correferencia en la oración. El conjunto de prueba consta solo de ejemplos más sencillos, con una gran cantidad de frases nominales (y, por lo tanto, más opciones para el modelo), pero poca o ninguna ambigüedad.

Esta versión corrige problemas en los que los tramos no son en realidad subcadenas del texto.

Separar Ejemplos
'test' 146
'train' 554
'validation' 104
  • Estructura de características :
FeaturesDict({
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'span1_index': int32,
   
'span1_text': Text(shape=(), dtype=string),
   
'span2_index': int32,
   
'span2_text': Text(shape=(), dtype=string),
   
'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
span1_index Tensor int32
span1_texto Texto cuerda
span2_index Tensor int32
span2_texto Texto cuerda
texto Texto cuerda
  • Cita :
@inproceedings{levesque2012winograd,
  title
={The winograd schema challenge},
  author
={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle
={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year
={2012}
}
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/axb

  • Descripción de configuración : un conjunto de datos de diagnóstico construido por expertos que prueba automáticamente los modelos para una amplia gama de conocimientos lingüísticos, de sentido común y del mundo. Cada ejemplo en este diagnóstico de amplia cobertura es un par de oraciones etiquetadas con una relación de vinculación de tres vías (implicación, neutral o contradicción) y etiquetadas con etiquetas que indican los fenómenos que caracterizan la relación entre las dos oraciones. Los envíos a la tabla de clasificación de GLUE deben incluir predicciones del clasificador MultiNLI de la presentación en el conjunto de datos de diagnóstico, y los análisis de los resultados se muestran junto con la tabla de clasificación principal. Dado que esta tarea de diagnóstico de amplia cobertura ha resultado difícil para los mejores modelos, la mantenemos en SuperGLUE. Sin embargo, dado que MultiNLI no forma parte de SuperGLUE, integramos la contradicción y la neutralidad en una única etiqueta sin implicaciones y solicitamos que los envíos incluyan predicciones sobre el conjunto resultante del modelo utilizado para la tarea RTE.

  • Página de inicio: https://gluebenchmark.com/diagnostics

  • Tamaño de la descarga : 33.15 KiB

  • Tamaño del conjunto de datos : 290.53 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,104
  • Estructura de características :
FeaturesDict({
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'sentence1': Text(shape=(), dtype=string),
   
'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
  • Cita :
@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/axg

  • Descripción de la configuración : Winogender está diseñado para medir el sesgo de género en los sistemas de resolución de correferencias. Usamos la versión Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) que presenta a Winogender como una tarea de vinculación textual. Cada ejemplo consta de una oración de premisa con un pronombre masculino o femenino y una hipótesis que da un posible antecedente del pronombre. Los ejemplos ocurren en pares mínimos, donde la única diferencia entre un ejemplo y su par es el género del pronombre en la premisa. El rendimiento en Winogender se mide tanto con precisión como con la puntuación de paridad de género: el porcentaje de pares mínimos para los que las predicciones son las mismas. Notamos que un sistema puede obtener trivialmente un puntaje de paridad de género perfecto al adivinar la misma clase para todos los ejemplos, por lo que un puntaje de paridad de género alto no tiene sentido a menos que esté acompañado de una alta precisión. Como prueba de diagnóstico del sesgo de género, consideramos que los esquemas tienen un valor predictivo positivo alto y un valor predictivo negativo bajo; es decir, pueden demostrar la presencia de sesgo de género en un sistema, pero no probar su ausencia.

  • Página de inicio: https://github.com/rudinger/winogender-schemas

  • Tamaño de la descarga : 10.17 KiB

  • Tamaño del conjunto de datos : 69.75 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 356
  • Estructura de características :
FeaturesDict({
   
'hypothesis': Text(shape=(), dtype=string),
   
'idx': int32,
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
   
'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@inproceedings{rudinger-EtAl:2018:N18,
  author    
= {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title    
= {Gender Bias in Coreference Resolution},
  booktitle
= {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month    
= {June},
  year      
= {2018},
  address  
= {New Orleans, Louisiana},
  publisher
= {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title
={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author
={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal
={arXiv preprint arXiv:1905.00537},
  year
={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.