- Descriptif :
Le corpus Multi-Genre Natural Language Inference (MultiNLI) est une collection de 433 000 paires de phrases annotées avec des informations d'implication textuelle. Le corpus est calqué sur le corpus SNLI, mais diffère en ce qu'il couvre une gamme de genres de textes parlés et écrits, et prend en charge une évaluation de généralisation inter-genres distincte. Le corpus a servi de base à la tâche partagée de l'atelier RepEval 2017 à l'EMNLP à Copenhague.
Page d' accueil : https://www.nyu.edu/projects/bowman/multinli/
Code source :
tfds.text.MultiNLIMismatch
Versions :
-
0.1.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
216.34 MiB
Taille du jeu de données :
90.91 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 392 702 |
'validation' | 10 000 |
- Structure des fonctionnalités :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': Text(shape=(), dtype=string),
'premise': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
hypothèse | Texte | chaîne de caractères | ||
étiquette | Texte | chaîne de caractères | ||
prémisse | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}