pegamento

  • Descripción :

GLUE, el punto de referencia de evaluación de comprensión del lenguaje general ( https://gluebenchmark.com/ ) es una colección de recursos para entrenar, evaluar y analizar sistemas de comprensión del lenguaje natural.

pegamento/cola (configuración predeterminada)

  • Descripción de la configuración : el Corpus de aceptabilidad lingüística consiste en juicios de aceptabilidad en inglés extraídos de libros y artículos de revistas sobre teoría lingüística. Cada ejemplo es una secuencia de palabras anotadas con si es una oración gramatical en inglés.

  • Página de inicio: https://nyu-mll.github.io/CoLA/

  • Tamaño de la descarga : 368.14 KiB

  • Tamaño del conjunto de datos : 965.49 KiB

  • Divisiones :

Separar Ejemplos
'test' 1,063
'train' 8,551
'validation' 1,043
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
frase Texto cuerda
  • Cita :
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/sst2

  • Descripción de la configuración : Stanford Sentiment Treebank consiste en oraciones de reseñas de películas y anotaciones humanas de su sentimiento. La tarea es predecir el sentimiento de una oración dada. Usamos la división de clases bidireccional (positiva/negativa) y solo usamos etiquetas a nivel de oración.

  • Página de inicio: https://nlp.stanford.edu/sentiment/index.html

  • Tamaño de la descarga : 7.09 MiB

  • Tamaño del conjunto de datos : 7.22 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,821
'train' 67,349
'validation' 872
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
frase Texto cuerda
  • Cita :
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/mrpc

  • Descripción de la configuración : Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) es un corpus de pares de oraciones extraídos automáticamente de fuentes de noticias en línea, con anotaciones humanas para determinar si las oraciones en el par son semánticamente equivalentes.

  • Página de inicio: https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • Tamaño de descarga : 1.43 MiB

  • Tamaño del conjunto de datos : 1.74 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,725
'train' 3,668
'validation' 408
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
  • Cita :
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/qqp

  • Descripción de la configuración : el conjunto de datos Quora Question Pairs2 es una colección de pares de preguntas del sitio web comunitario de preguntas y respuestas Quora. La tarea es determinar si un par de preguntas son semánticamente equivalentes.

  • Página de inicio: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • Tamaño de la descarga : 39.76 MiB

  • Tamaño del conjunto de datos : 150.37 MiB

  • Divisiones :

Separar Ejemplos
'test' 390,965
'train' 363,846
'validation' 40.430
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question1': Text(shape=(), dtype=string),
    'question2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
Pregunta 1 Texto cuerda
Pregunta 2 Texto cuerda
  • Cita :
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/stsb

  • Descripción de la configuración : el punto de referencia de similitud textual semántica (Cer et al., 2017) es una colección de pares de oraciones extraídas de titulares de noticias, subtítulos de videos e imágenes y datos de inferencia de lenguaje natural. Cada par está anotado por humanos con una puntuación de similitud de 0 a 5.

  • Página de inicio: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • Tamaño de la descarga : 784.05 KiB

  • Tamaño del conjunto de datos : 1.58 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,379
'train' 5,749
'validation' 1,500
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': float32,
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Tensor flotar32
oracion1 Texto cuerda
oracion2 Texto cuerda
  • Cita :
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/mnli

  • Descripción de la configuración : el corpus de inferencia de lenguaje natural multigénero es una colección de pares de oraciones de colaboración colectiva con anotaciones de vinculación textual. Dada una oración de premisa y una oración de hipótesis, la tarea es predecir si la premisa implica la hipótesis (implicación), contradice la hipótesis (contradicción) o ninguna (neutral). Las oraciones de la premisa se recopilan de diez fuentes diferentes, que incluyen discursos transcritos, ficción e informes gubernamentales. Usamos el conjunto de prueba estándar, para el cual obtuvimos etiquetas privadas de los autores, y evaluamos tanto en la sección coincidente (en el dominio) como en la no coincidente (dominio cruzado). También usamos y recomendamos el corpus SNLI como ejemplos de 550k de datos de entrenamiento auxiliares.

  • Página de inicio : http://www.nyu.edu/projects/bowman/multinli/

  • Tamaño de la descarga : 298.29 MiB

  • Tamaño del conjunto de datos : 100.56 MiB

  • Divisiones :

Separar Ejemplos
'test_matched' 9,796
'test_mismatched' 9,847
'train' 392,702
'validation_matched' 9,815
'validation_mismatched' 9,832
  • Estructura de características :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/mnli_mismatched

  • Descripción de la configuración : las divisiones de prueba y validación no coincidentes de MNLI. Consulte el BuilderConfig "mnli" para obtener información adicional.

  • Página de inicio : http://www.nyu.edu/projects/bowman/multinli/

  • Tamaño de la descarga : 298.29 MiB

  • Tamaño del conjunto de datos : 4.79 MiB

  • Divisiones :

Separar Ejemplos
'test' 9,847
'validation' 9,832
  • Estructura de características :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/mnli_emparejado

  • Descripción de la configuración : la validación coincidente y las divisiones de prueba de MNLI. Consulte el BuilderConfig "mnli" para obtener información adicional.

  • Página de inicio : http://www.nyu.edu/projects/bowman/multinli/

  • Tamaño de la descarga : 298.29 MiB

  • Tamaño del conjunto de datos : 4.58 MiB

  • Divisiones :

Separar Ejemplos
'test' 9,796
'validation' 9,815
  • Estructura de características :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/qnli

  • Descripción de la configuración : el conjunto de datos de respuesta a preguntas de Stanford es un conjunto de datos de preguntas y respuestas que consta de pares de preguntas y párrafos, donde una de las oraciones del párrafo (extraído de Wikipedia) contiene la respuesta a la pregunta correspondiente (escrita por un anotador). Convertimos la tarea en una clasificación de pares de oraciones formando un par entre cada pregunta y cada oración en el contexto correspondiente, y filtrando los pares con poca superposición léxica entre la pregunta y la oración de contexto. La tarea es determinar si la oración de contexto contiene la respuesta a la pregunta. Esta versión modificada de la tarea original elimina el requisito de que el modelo seleccione la respuesta exacta, pero también elimina las suposiciones simplificadoras de que la respuesta siempre está presente en la entrada y que la superposición léxica es una pista confiable.

  • Página de inicio: https://rajpurkar.github.io/SQuAD-explorer/

  • Tamaño de la descarga : 10.14 MiB

  • Tamaño del conjunto de datos : 32.99 MiB

  • Divisiones :

Separar Ejemplos
'test' 5,463
'train' 104,743
'validation' 5,463
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
pregunta Texto cuerda
frase Texto cuerda
  • Cita :
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/arte

  • Descripción de la configuración : los conjuntos de datos de reconocimiento de vinculación textual (RTE) provienen de una serie de desafíos anuales de vinculación textual. Combinamos los datos de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) y RTE5 (Bentivogli et al., 2009).4 Los ejemplos son construido en base a noticias y texto de Wikipedia. Convertimos todos los conjuntos de datos en una división de dos clases, donde para los conjuntos de datos de tres clases colapsamos neutral y la contradicción en no vinculación, por consistencia.

  • Página de inicio: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Tamaño de la descarga : 680.81 KiB

  • Tamaño del conjunto de datos : 2.15 MiB

  • Divisiones :

Separar Ejemplos
'test' 3,000
'train' 2,490
'validation' 277
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
  • Cita :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/wnli

  • Descripción de la configuración : El Winograd Schema Challenge (Levesque et al., 2011) es una tarea de comprensión de lectura en la que un sistema debe leer una oración con un pronombre y seleccionar el referente de ese pronombre de una lista de opciones. Los ejemplos se construyen manualmente para frustrar métodos estadísticos simples: cada uno depende de la información contextual proporcionada por una sola palabra o frase en la oración. Para convertir el problema en una clasificación de pares de oraciones, construimos pares de oraciones reemplazando el pronombre ambiguo con cada referente posible. La tarea es predecir si la oración con el pronombre sustituido está relacionada con la oración original. Utilizamos un pequeño conjunto de evaluación que consta de nuevos ejemplos derivados de libros de ficción que los autores del corpus original compartieron de forma privada. Mientras que el conjunto de entrenamiento incluido está equilibrado entre dos clases, el conjunto de prueba está desequilibrado entre ellas (65 % sin vinculación). Además, debido a una peculiaridad de los datos, el conjunto de desarrollo es contradictorio: las hipótesis a veces se comparten entre los ejemplos de entrenamiento y desarrollo, por lo que si un modelo memoriza los ejemplos de entrenamiento, predecirán la etiqueta incorrecta en el ejemplo del conjunto de desarrollo correspondiente. Al igual que con QNLI, cada ejemplo se evalúa por separado, por lo que no existe una correspondencia sistemática entre la puntuación de un modelo en esta tarea y su puntuación en la tarea original no convertida. Llamamos al conjunto de datos convertido WNLI (Winograd NLI).

  • Página de inicio: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • Tamaño de la descarga : 28.32 KiB

  • Tamaño del conjunto de datos : 198.88 KiB

  • Divisiones :

Separar Ejemplos
'test' 146
'train' 635
'validation' 71
  • Estructura de características :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
idx Tensor int32
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
  • Cita :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento/hacha

  • Descripción de configuración : un conjunto de datos de evaluación curado manualmente para un análisis detallado del rendimiento del sistema en una amplia gama de fenómenos lingüísticos. Este conjunto de datos evalúa la comprensión de oraciones a través de problemas de inferencia de lenguaje natural (NLI). Utilice un modelo entrenado en MulitNLI para producir predicciones para este conjunto de datos.

  • Página de inicio: https://gluebenchmark.com/diagnostics

  • Tamaño de la descarga : 217.05 KiB

  • Tamaño del conjunto de datos : 299.16 KiB

  • Divisiones :

Separar Ejemplos
'test' 1,104
  • Estructura de características :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
idx Tensor int32
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.