sci_tail

  • Descrição :

O conjunto de dados SciTail é um conjunto de dados de vinculação criado a partir de exames de ciências de múltipla escolha e sentenças da web. Cada pergunta e a escolha de resposta correta são convertidas em uma declaração assertiva para formar a hipótese. A recuperação de informação é usada para obter texto relevante de um grande corpus de texto de sentenças da web, e essas sentenças são usadas como uma premissa P. A anotação de tal par premissa-hipótese é colaborativa como suporte (implica) ou não (neutro), a fim para criar o conjunto de dados SciTail. O conjunto de dados contém 27.026 exemplos com 10.101 exemplos com rótulo de vínculo e 16.925 exemplos com rótulo neutro.

Dividir Exemplos
'test' 2.126
'train' 23.097
'validation' 1.304
  • Estrutura de recursos :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
hipótese Texto fragmento
rótulo ClassLabel int64
premissa Texto fragmento
  • Citação :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}