doc_nli

  • Descrizione :

DocNLI è un set di dati su larga scala per l'inferenza del linguaggio naturale (NLI) a livello di documento. DocNLI si trasforma da un'ampia gamma di problemi di PNL e copre più generi di testo. Le premesse restano sempre nella granularità del documento, mentre le ipotesi variano in lunghezza da singole frasi a passaggi con centinaia di parole. Contrariamente ad alcuni set di dati NLI a livello di frase esistenti, DocNLI ha artefatti piuttosto limitati.

Diviso Esempi
'test' 267.086
'train' 942.314
'validation' 234.258
  • Struttura delle caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ipotesi Testo corda
etichetta ClassLabel int64
premessa Testo corda
  • Citazione :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}