doc_nli

  • Descrição :

DocNLI é um conjunto de dados em larga escala para inferência de linguagem natural (NLI) em nível de documento. DocNLI é transformado a partir de uma ampla gama de problemas de PNL e abrange vários gêneros de texto. As premissas sempre ficam na granularidade do documento, enquanto as hipóteses variam em extensão, desde frases simples até trechos com centenas de palavras. Em contraste com alguns conjuntos de dados NLI existentes em nível de sentença, o DocNLI tem artefatos bastante limitados.

Dividir Exemplos
'test' 267.086
'train' 942.314
'validation' 234.258
  • Estrutura de recursos :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
hipótese Texto corda
etiqueta ClassLabel int64
premissa Texto corda
  • Citação :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}