- Descriptif :
Les systèmes de dialogue orientés tâche doivent savoir quand une requête sort de leur plage d'intentions prises en charge, mais les corpus de classification de texte actuels définissent uniquement des ensembles d'étiquettes qui couvrent chaque exemple. Nous introduisons un nouvel ensemble de données qui comprend des requêtes hors champ (OOS), c'est-à-dire des requêtes qui ne relèvent d'aucune des intentions prises en charge par le système. Cela pose un nouveau défi car les modèles ne peuvent pas supposer que chaque requête au moment de l'inférence appartient à une classe d'intention prise en charge par le système. Notre ensemble de données couvre également 150 classes d'intention sur 10 domaines, capturant l'étendue qu'un agent orienté tâche de production doit gérer. Il offre un moyen d'évaluer de manière plus rigoureuse et réaliste la classification de texte dans les systèmes de dialogue axés sur les tâches.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/clinc/oos-eval/
Code source :
tfds.text.ClincOOS
Versions :
-
0.1.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
256.01 KiB
Taille du jeu de données :
3.40 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 500 |
'test_oos' | 1 000 |
'train' | 15 000 |
'train_oos' | 100 |
'validation' | 3 000 |
'validation_oos' | 100 |
- Structure des fonctionnalités :
FeaturesDict({
'domain': int32,
'domain_name': Text(shape=(), dtype=string),
'intent': int32,
'intent_name': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
domaine | Tenseur | int32 | ||
nom de domaine | Texte | chaîne de caractères | ||
intention | Tenseur | int32 | ||
nom_intention | Texte | chaîne de caractères | ||
texte | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('text', 'intent')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{larson-etal-2019-evaluation,
title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction",
author = "Larson, Stefan and
Mahendran, Anish and
Peper, Joseph J. and
Clarke, Christopher and
Lee, Andrew and
Hill, Parker and
Kummerfeld, Jonathan K. and
Leach, Kevin and
Laurenzano, Michael A. and
Tang, Lingjia and
Mars, Jason",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D19-1131",
doi = "10.18653/v1/D19-1131",
pages = "1311--1316",
}