sci_tail

  • Deskripsi :

Kumpulan data SciTail adalah kumpulan data persyaratan yang dibuat dari ujian sains pilihan ganda dan kalimat web. Setiap pertanyaan dan pilihan jawaban yang benar diubah menjadi pernyataan asertif untuk membentuk hipotesis. Pengambilan informasi digunakan untuk mendapatkan teks yang relevan dari korpus teks besar kalimat web, dan kalimat ini digunakan sebagai premis P. Anotasi pasangan premis-hipotesis tersebut adalah crowdsourced sebagai pendukung (entails) atau tidak (netral), agar untuk membuat kumpulan data SciTail. Dataset berisi 27.026 contoh dengan 10.101 contoh dengan label memerlukan dan 16.925 contoh dengan label netral.

Membelah Contoh
'test' 2.126
'train' 23.097
'validation' 1.304
  • Struktur fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
hipotesa Teks rangkaian
label LabelKelas int64
premis Teks rangkaian
  • Kutipan :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}