- Descriptif :
Ensemble de données de modélisation Criteo Uplift
Ce jeu de données est publié avec l'article : « A Large Scale Benchmark for Uplift Modeling » Eustache Diemert, Artem Betlei, Christophe Renaudin ; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Ce travail a été publié dans : AdKDD 2018 Workshop, conjointement avec KDD 2018.
Description des données
Cet ensemble de données est construit en assemblant des données issues de plusieurs tests d'incrémentalité, une procédure d'essai randomisée particulière où une partie aléatoire de la population est empêchée d'être ciblée par la publicité. il est composé de 25M de lignes représentant chacune un utilisateur avec 11 caractéristiques, un indicateur de traitement et 2 libellés (visites et conversions).
Des champs
Voici une description détaillée des champs (ils sont séparés par des virgules dans le fichier) :
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11 : valeurs des caractéristiques (dense, float)
- traitement : groupe de traitement (1 = traité, 0 = témoin)
- conversion : si une conversion a eu lieu pour cet utilisateur (binaire, étiquette)
- visit : si une visite a eu lieu pour cet utilisateur (binaire, étiquette)
- exposition : effet du traitement, si l'utilisateur a été effectivement exposé (binaire)
Chiffres clés
- Format : CSV
- Taille : 459 Mo (compressé)
- Lignes : 25 309 483
- Taux de visite moyen : 0,04132
- Taux de conversion moyen : 0,00229
- Rapport de traitement : 0,846
Tâches
L'ensemble de données a été collecté et préparé en gardant à l'esprit la prédiction du soulèvement comme tâche principale. De plus, nous pouvons prévoir des utilisations connexes telles que, mais sans s'y limiter :
- point de repère pour l'inférence causale
- modélisation de l'élévation
- interactions entre les caractéristiques et le traitement
- hétérogénéité du traitement
référence pour les méthodes de causalité observationnelle
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Code source :
tfds.recommendation.criteo.Criteo
Versions :
-
1.0.0
: Version initiale. -
1.0.1
(par défaut) : correction de l'analyse des champsconversion
,visit
etexposure
.
-
Taille du téléchargement :
297.00 MiB
Taille du jeu de données :
3.55 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 13 979 592 |
- Structure des fonctionnalités :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
conversion | Tenseur | bourdonner | ||
exposition | Tenseur | bourdonner | ||
f0 | Tenseur | float32 | ||
f1 | Tenseur | float32 | ||
f10 | Tenseur | float32 | ||
f11 | Tenseur | float32 | ||
f2 | Tenseur | float32 | ||
f3 | Tenseur | float32 | ||
f4 | Tenseur | float32 | ||
f5 | Tenseur | float32 | ||
f6 | Tenseur | float32 | ||
f7 | Tenseur | float32 | ||
f8 | Tenseur | float32 | ||
f9 | Tenseur | float32 | ||
traitement | Tenseur | int64 | ||
visite | Tenseur | bourdonner |
Touches supervisées (Voir
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}