critéo

  • Descriptif :

Ensemble de données de modélisation Criteo Uplift

Ce jeu de données est publié avec l'article : « A Large Scale Benchmark for Uplift Modeling » Eustache Diemert, Artem Betlei, Christophe Renaudin ; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

Ce travail a été publié dans : AdKDD 2018 Workshop, conjointement avec KDD 2018.

Description des données

Cet ensemble de données est construit en assemblant des données issues de plusieurs tests d'incrémentalité, une procédure d'essai randomisée particulière où une partie aléatoire de la population est empêchée d'être ciblée par la publicité. il est composé de 25M de lignes représentant chacune un utilisateur avec 11 caractéristiques, un indicateur de traitement et 2 libellés (visites et conversions).

Des champs

Voici une description détaillée des champs (ils sont séparés par des virgules dans le fichier) :

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11 : valeurs des caractéristiques (dense, float)
  • traitement : groupe de traitement (1 = traité, 0 = témoin)
  • conversion : si une conversion a eu lieu pour cet utilisateur (binaire, étiquette)
  • visit : si une visite a eu lieu pour cet utilisateur (binaire, étiquette)
  • exposition : effet du traitement, si l'utilisateur a été effectivement exposé (binaire)

Chiffres clés

  • Format : CSV
  • Taille : 459 Mo (compressé)
  • Lignes : 25 309 483
  • Taux de visite moyen : 0,04132
  • Taux de conversion moyen : 0,00229
  • Rapport de traitement : 0,846

Tâches

L'ensemble de données a été collecté et préparé en gardant à l'esprit la prédiction du soulèvement comme tâche principale. De plus, nous pouvons prévoir des utilisations connexes telles que, mais sans s'y limiter :

Diviser Exemples
'train' 13 979 592
  • Structure des fonctionnalités :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
conversion Tenseur bourdonner
exposition Tenseur bourdonner
f0 Tenseur float32
f1 Tenseur float32
f10 Tenseur float32
f11 Tenseur float32
f2 Tenseur float32
f3 Tenseur float32
f4 Tenseur float32
f5 Tenseur float32
f6 Tenseur float32
f7 Tenseur float32
f8 Tenseur float32
f9 Tenseur float32
traitement Tenseur int64
visite Tenseur bourdonner
  • Touches supervisées (Voir as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Figure ( tfds.show_examples ) : non pris en charge.

  • Exemples ( tfds.as_dataframe ):

  • Citation :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}