- Descrizione :
DocNLI è un set di dati su larga scala per l'inferenza del linguaggio naturale (NLI) a livello di documento. DocNLI si trasforma da un'ampia gamma di problemi di PNL e copre più generi di testo. Le premesse restano sempre nella granularità del documento, mentre le ipotesi variano in lunghezza da singole frasi a passaggi con centinaia di parole. Contrariamente ad alcuni set di dati NLI a livello di frase esistenti, DocNLI ha artefatti piuttosto limitati.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/salesforce/DocNLI/
Codice sorgente :
tfds.text.docnli.DocNLI
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
313.89 MiB
Dimensione del set di dati:
3.07 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 267.086 |
'train' | 942.314 |
'validation' | 234.258 |
- Struttura delle caratteristiche :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
ipotesi | Testo | corda | ||
etichetta | ClassLabel | int64 | ||
premessa | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}