- Deskripsi :
Kumpulan Data Pemodelan Criteo Uplift
Kumpulan data ini dirilis bersama dengan makalah: “Tolok Ukur Skala Besar untuk Pemodelan Peningkatan” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Karya ini dipublikasikan di: Lokakarya AdKDD 2018, bersamaan dengan KDD 2018.
Deskripsi data
Kumpulan data ini dibangun dengan mengumpulkan data yang dihasilkan dari beberapa uji inkrementalitas, prosedur uji coba acak tertentu di mana bagian acak dari populasi dicegah dari target iklan. terdiri dari 25 juta baris, masing-masing mewakili pengguna dengan 11 fitur, indikator perawatan, dan 2 label (kunjungan dan konversi).
Bidang
Berikut ini adalah deskripsi mendetail tentang bidang-bidang tersebut (dipisahkan dengan koma dalam file):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: nilai fitur (padat, mengambang)
- pengobatan: kelompok perlakuan (1 = diobati, 0 = kontrol)
- konversi: apakah konversi terjadi untuk pengguna ini (biner, label)
- kunjungan: apakah kunjungan terjadi untuk pengguna ini (biner, label)
- paparan: efek pengobatan, apakah pengguna telah terpapar secara efektif (biner)
Tokoh kunci
- Format: CSV
- Ukuran: 459MB (terkompresi)
- Baris: 25.309.483
- Tingkat Kunjungan Rata-Rata: 0,04132
- Tingkat Konversi Rata-Rata: 0,00229
- Rasio Pengobatan: 0,846
Tugas
Kumpulan data dikumpulkan dan disiapkan dengan mempertimbangkan prediksi peningkatan sebagai tugas utama. Selain itu, kami dapat memperkirakan penggunaan terkait seperti namun tidak terbatas pada:
- patokan untuk inferensi kausal
- pemodelan pengangkatan
- interaksi antara fitur dan perawatan
- heterogenitas pengobatan
patokan untuk metode kausalitas observasional
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Kode sumber :
tfds.recommendation.criteo.Criteo
Versi :
-
1.0.0
: Rilis awal. -
1.0.1
(default): Memperbaiki penguraianconversion
bidang,visit
, danexposure
.
-
Ukuran unduhan :
297.00 MiB
Ukuran dataset :
3.55 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 13.979.592 |
- Struktur fitur :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
konversi | Tensor | bool | ||
paparan | Tensor | bool | ||
f0 | Tensor | float32 | ||
f1 | Tensor | float32 | ||
f10 | Tensor | float32 | ||
f11 | Tensor | float32 | ||
f2 | Tensor | float32 | ||
f3 | Tensor | float32 | ||
f4 | Tensor | float32 | ||
f5 | Tensor | float32 | ||
f6 | Tensor | float32 | ||
f7 | Tensor | float32 | ||
f8 | Tensor | float32 | ||
f9 | Tensor | float32 | ||
perlakuan | Tensor | int64 | ||
mengunjungi | Tensor | bool |
Kunci yang diawasi (Lihat
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}