sci_tail

  • Descripción :

El conjunto de datos de SciTail es un conjunto de datos de vinculación creado a partir de exámenes de ciencias de opción múltiple y oraciones web. Cada pregunta y la opción de respuesta correcta se convierten en una declaración asertiva para formar la hipótesis. La recuperación de información se usa para obtener texto relevante de un corpus de texto grande de oraciones web, y estas oraciones se usan como una premisa P. La anotación de dicho par de premisa-hipótesis se obtiene de forma colectiva como soportes (implica) o no (neutral), con el fin de para crear el conjunto de datos SciTail. El conjunto de datos contiene 27 026 ejemplos con 10 101 ejemplos con etiqueta implica y 16 925 ejemplos con etiqueta neutral.

Separar Ejemplos
'test' 2,126
'train' 23,097
'validation' 1,304
  • Estructura de características :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cadena
etiqueta Etiqueta de clase int64
premisa Texto cadena
  • Cita :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}