- Deskripsi :
DocNLI adalah kumpulan data berskala besar untuk inferensi bahasa alami (NLI) tingkat dokumen. DocNLI diubah dari berbagai masalah NLP dan mencakup banyak genre teks. Premisnya selalu berada dalam perincian dokumen, sedangkan hipotesis bervariasi panjangnya dari satu kalimat hingga bagian dengan ratusan kata. Berbeda dengan beberapa kumpulan data NLI tingkat kalimat yang ada, DocNLI memiliki artefak yang sangat terbatas.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/salesforce/DocNLI/
Kode sumber :
tfds.text.docnli.DocNLI
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
313.89 MiB
Ukuran dataset :
3.07 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 267.086 |
'train' | 942.314 |
'validation' | 234.258 |
- Struktur fitur :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
hipotesa | Teks | rangkaian | ||
label | LabelKelas | int64 | ||
premis | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}