критео

  • Описание :

Набор данных моделирования подъема Criteo

Этот набор данных выпущен вместе с документом: «Крупномасштабный контрольный показатель для моделирования поднятия» Юсташ Димерт, Артем Бетлей, Кристоф Реноден; (Criteo AI Lab), Массих-Реза Амини (LIG, Grenoble INP)

Эта работа была опубликована в AdKDD 2018 Workshop совместно с KDD 2018.

Описание данных

Этот набор данных создается путем сбора данных, полученных в результате нескольких тестов инкрементальности, особой процедуры рандомизированных испытаний, при которой реклама предотвращает попадание случайной части населения в таргетинг. он состоит из 25 миллионов строк, каждая из которых представляет пользователя с 11 функциями, индикатором обработки и 2 метками (посещения и конверсии).

Поля

Вот подробное описание полей (в файле они разделены запятыми):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: значения функций (плотные, плавающие)
  • лечение: группа лечения (1 = обработанная, 0 = контрольная)
  • конверсия: произошла ли конверсия для этого пользователя (двоичный файл, ярлык)
  • посещение: произошло ли посещение для этого пользователя (бинарное, метка)
  • воздействие: эффект лечения, был ли пользователь подвергнут эффективному воздействию (бинарное)

Ключевые цифры

  • Формат: CSV
  • Размер: 459 МБ (в сжатом виде)
  • Ряды: 25 309 483
  • Средняя частота посещений: 0,04132
  • Средний коэффициент конверсии: 0,00229
  • Коэффициент лечения: 0,846

Задачи

Набор данных был собран и подготовлен с учетом прогнозирования поднятия в качестве основной задачи. Кроме того, мы можем предвидеть связанные варианты использования, такие как, помимо прочего:

  • ориентир для причинно-следственной связи
  • моделирование подъема
  • взаимодействие между функциями и лечением
  • неоднородность лечения
  • эталон для методов причинно-следственной связи

  • Домашняя страница : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Исходный код : tfds.recommendation.criteo.Criteo

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : 297.00 MiB

  • Размер набора данных : 3.55 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 13 979 592
  • Структура функции :
FeaturesDict({
    'conversion': tf.bool,
    'exposure': tf.bool,
    'f0': tf.float32,
    'f1': tf.float32,
    'f10': tf.float32,
    'f11': tf.float32,
    'f2': tf.float32,
    'f3': tf.float32,
    'f4': tf.float32,
    'f5': tf.float32,
    'f6': tf.float32,
    'f7': tf.float32,
    'f8': tf.float32,
    'f9': tf.float32,
    'treatment': tf.int64,
    'visit': tf.bool,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
преобразование Тензор tf.bool
экспозиция Тензор tf.bool
f0 Тензор tf.float32
f1 Тензор tf.float32
f10 Тензор tf.float32
f11 Тензор tf.float32
f2 Тензор tf.float32
f3 Тензор tf.float32
f4 Тензор tf.float32
f5 Тензор tf.float32
f6 Тензор tf.float32
f7 Тензор tf.float32
f8 Тензор tf.float32
f9 Тензор tf.float32
лечение Тензор tf.int64
посещать Тензор tf.bool
  • Контролируемые ключи (см. as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Примеры ( tfds.as_dataframe ):

  • Цитата :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}