- Descrição :
Conjunto de dados de modelagem do Criteo Uplift
Este conjunto de dados é lançado junto com o artigo: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Este trabalho foi publicado em: Workshop AdKDD 2018, em conjunto com o KDD 2018.
Descrição de dados
Este conjunto de dados é construído reunindo dados resultantes de vários testes de incrementalidade, um procedimento de teste aleatório específico em que uma parte aleatória da população é impedida de ser alvo de publicidade. consiste em 25M linhas, cada uma representando um usuário com 11 características, um indicador de tratamento e 2 rótulos (visitas e conversões).
Campos
Aqui está uma descrição detalhada dos campos (eles são separados por vírgula no arquivo):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: valores de recursos (denso, flutuante)
- tratamento: grupo de tratamento (1 = tratado, 0 = controle)
- conversão: se ocorreu uma conversão para este usuário (binário, rótulo)
- visit: se ocorreu uma visita para este usuário (binário, rótulo)
- exposição: efeito do tratamento, se o usuário foi efetivamente exposto (binário)
Figuras chave
- Formato: CSV
- Tamanho: 459 MB (compactado)
- Linhas: 25.309.483
- Taxa média de visitas: 0,04132
- Taxa de conversão média: 0,00229
- Taxa de tratamento: 0,846
Tarefas
O conjunto de dados foi coletado e preparado com a previsão de elevação em mente como a tarefa principal. Além disso, podemos prever usos relacionados, como, mas não limitados a:
- benchmark para inferência causal
- modelagem de elevação
- interações entre recursos e tratamento
- heterogeneidade de tratamento
referência para métodos de causalidade observacional
Documentação Adicional : Explore em Papers With Code
Página inicial : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Código -fonte:
tfds.recommendation.criteo.Criteo
Versões :
-
1.0.0
: versão inicial. -
1.0.1
(padrão): Corrigida a análise dos campos deconversion
,visit
eexposure
.
-
Tamanho do download :
297.00 MiB
Tamanho do conjunto de dados :
3.55 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 13.979.592 |
- Estrutura de recursos :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
conversão | tensor | bool | ||
exposição | tensor | bool | ||
f0 | tensor | float32 | ||
f1 | tensor | float32 | ||
f10 | tensor | float32 | ||
f11 | tensor | float32 | ||
f2 | tensor | float32 | ||
f3 | tensor | float32 | ||
f4 | tensor | float32 | ||
f5 | tensor | float32 | ||
f6 | tensor | float32 | ||
f7 | tensor | float32 | ||
f8 | tensor | float32 | ||
f9 | tensor | float32 | ||
tratamento | tensor | int64 | ||
Visita | tensor | bool |
Chaves supervisionadas (consulte o documento
as_supervised
):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
, - Descrição :
Conjunto de dados de modelagem do Criteo Uplift
Este conjunto de dados é lançado junto com o artigo: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Este trabalho foi publicado em: Workshop AdKDD 2018, em conjunto com o KDD 2018.
Descrição de dados
Este conjunto de dados é construído reunindo dados resultantes de vários testes de incrementalidade, um procedimento de teste aleatório específico em que uma parte aleatória da população é impedida de ser alvo de publicidade. consiste em 25M linhas, cada uma representando um usuário com 11 características, um indicador de tratamento e 2 rótulos (visitas e conversões).
Campos
Aqui está uma descrição detalhada dos campos (eles são separados por vírgula no arquivo):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: valores de recursos (denso, flutuante)
- tratamento: grupo de tratamento (1 = tratado, 0 = controle)
- conversão: se ocorreu uma conversão para este usuário (binário, rótulo)
- visit: se ocorreu uma visita para este usuário (binário, rótulo)
- exposição: efeito do tratamento, se o usuário foi efetivamente exposto (binário)
Figuras chave
- Formato: CSV
- Tamanho: 459 MB (compactado)
- Linhas: 25.309.483
- Taxa média de visitas: 0,04132
- Taxa de conversão média: 0,00229
- Taxa de tratamento: 0,846
Tarefas
O conjunto de dados foi coletado e preparado com a previsão de elevação em mente como a tarefa principal. Além disso, podemos prever usos relacionados, como, mas não limitados a:
- benchmark para inferência causal
- modelagem de elevação
- interações entre recursos e tratamento
- heterogeneidade de tratamento
referência para métodos de causalidade observacional
Documentação Adicional : Explore em Papers With Code
Página inicial : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Código -fonte:
tfds.recommendation.criteo.Criteo
Versões :
-
1.0.0
: versão inicial. -
1.0.1
(padrão): Corrigida a análise dos campos deconversion
,visit
eexposure
.
-
Tamanho do download :
297.00 MiB
Tamanho do conjunto de dados :
3.55 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 13.979.592 |
- Estrutura de recursos :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
conversão | tensor | bool | ||
exposição | tensor | bool | ||
f0 | tensor | float32 | ||
f1 | tensor | float32 | ||
f10 | tensor | float32 | ||
f11 | tensor | float32 | ||
f2 | tensor | float32 | ||
f3 | tensor | float32 | ||
f4 | tensor | float32 | ||
f5 | tensor | float32 | ||
f6 | tensor | float32 | ||
f7 | tensor | float32 | ||
f8 | tensor | float32 | ||
f9 | tensor | float32 | ||
tratamento | tensor | int64 | ||
Visita | tensor | bool |
Chaves supervisionadas (consulte o documento
as_supervised
):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}