- Mô tả :
Bộ dữ liệu lập mô hình nâng cao Criteo
Bộ dữ liệu này được phát hành cùng với bài báo: “Một điểm chuẩn quy mô lớn cho mô hình nâng cao” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Tác phẩm này đã được xuất bản trong: Hội thảo AdKDD 2018, kết hợp với KDD 2018.
Mô tả dữ liệu
Tập dữ liệu này được xây dựng bằng cách tập hợp dữ liệu thu được từ một số thử nghiệm gia tăng, một quy trình thử nghiệm ngẫu nhiên cụ thể trong đó một phần ngẫu nhiên của dân số không bị quảng cáo nhắm mục tiêu. nó bao gồm 25 triệu hàng, mỗi hàng đại diện cho một người dùng với 11 tính năng, chỉ báo điều trị và 2 nhãn (lượt truy cập và chuyển đổi).
Lĩnh vực
Dưới đây là mô tả chi tiết về các trường (chúng được phân tách bằng dấu phẩy trong tệp):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: giá trị tính năng (đặc, nổi)
- điều trị: nhóm điều trị (1 = điều trị, 0 = kiểm soát)
- chuyển đổi: liệu một chuyển đổi có xảy ra cho người dùng này không (nhị phân, nhãn)
- truy cập: liệu một lượt truy cập có xảy ra cho người dùng này hay không (nhị phân, nhãn)
- tiếp xúc: hiệu quả điều trị, liệu người dùng có tiếp xúc hiệu quả hay không (nhị phân)
Số liệu quan trọng
- Định dạng: CSV
- Kích thước: 459MB (nén)
- Hàng: 25.309.483
- Tỷ lệ truy cập trung bình: .04132
- Tỷ lệ chuyển đổi trung bình: 0,00229
- Tỷ lệ xử lý: .846
Nhiệm vụ
Tập dữ liệu được thu thập và chuẩn bị với mục đích chính là dự đoán mức tăng. Ngoài ra, chúng tôi có thể thấy trước các cách sử dụng liên quan, chẳng hạn như nhưng không giới hạn ở:
- tiêu chuẩn cho suy luận nhân quả
- mô hình nâng cao
- tương tác giữa các tính năng và điều trị
- điều trị không đồng nhất
tiêu chuẩn cho các phương pháp quan sát nhân quả
Trang chủ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Mã nguồn :
tfds.recommendation.criteo.Criteo
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
297.00 MiB
Kích thước tập dữ liệu :
3.55 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 13,979,592 |
- Cấu trúc tính năng :
FeaturesDict({
'conversion': tf.bool,
'exposure': tf.bool,
'f0': tf.float32,
'f1': tf.float32,
'f10': tf.float32,
'f11': tf.float32,
'f2': tf.float32,
'f3': tf.float32,
'f4': tf.float32,
'f5': tf.float32,
'f6': tf.float32,
'f7': tf.float32,
'f8': tf.float32,
'f9': tf.float32,
'treatment': tf.int64,
'visit': tf.bool,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
sự hoán cải | Tensor | tf.bool | ||
Phơi bày | Tensor | tf.bool | ||
f0 | Tensor | tf.float32 | ||
f1 | Tensor | tf.float32 | ||
f10 | Tensor | tf.float32 | ||
f11 | Tensor | tf.float32 | ||
f2 | Tensor | tf.float32 | ||
f3 | Tensor | tf.float32 | ||
f4 | Tensor | tf.float32 | ||
f5 | Tensor | tf.float32 | ||
f6 | Tensor | tf.float32 | ||
f7 | Tensor | tf.float32 | ||
f8 | Tensor | tf.float32 | ||
f9 | Tensor | tf.float32 | ||
sự đối đãi | Tensor | tf.int64 | ||
chuyến thăm | Tensor | tf.bool |
Các phím được giám sát (Xem
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}