doc_nli

  • Descripción :

DocNLI es un conjunto de datos a gran escala para la inferencia de lenguaje natural (NLI) a nivel de documento. DocNLI se transforma a partir de una amplia gama de problemas de PNL y cubre múltiples géneros de texto. Las premisas siempre se mantienen en la granularidad del documento, mientras que las hipótesis varían en longitud desde oraciones simples hasta pasajes con cientos de palabras. A diferencia de algunos conjuntos de datos NLI a nivel de oración existentes, DocNLI tiene artefactos bastante limitados.

Separar Ejemplos
'test' 267,086
'train' 942,314
'validation' 234,258
  • Estructura de características :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hipótesis Texto cuerda
etiqueta Etiqueta de clase int64
premisa Texto cuerda
  • Cita :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}