doc_nli

  • Deskripsi :

DocNLI adalah kumpulan data berskala besar untuk inferensi bahasa alami (NLI) tingkat dokumen. DocNLI diubah dari berbagai masalah NLP dan mencakup banyak genre teks. Premisnya selalu berada dalam perincian dokumen, sedangkan hipotesis bervariasi panjangnya dari satu kalimat hingga bagian dengan ratusan kata. Berbeda dengan beberapa kumpulan data NLI tingkat kalimat yang ada, DocNLI memiliki artefak yang sangat terbatas.

Membelah Contoh
'test' 267.086
'train' 942.314
'validation' 234.258
  • Struktur fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
hipotesa Teks rangkaian
label LabelKelas int64
premis Teks rangkaian
  • Kutipan :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}