tiêu chí

  • Mô tả :

Bộ dữ liệu lập mô hình nâng cao Criteo

Bộ dữ liệu này được phát hành cùng với bài báo: “Một điểm chuẩn quy mô lớn cho mô hình nâng cao” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

Tác phẩm này đã được xuất bản trong: Hội thảo AdKDD 2018, kết hợp với KDD 2018.

Mô tả dữ liệu

Tập dữ liệu này được xây dựng bằng cách tập hợp dữ liệu thu được từ một số thử nghiệm gia tăng, một quy trình thử nghiệm ngẫu nhiên cụ thể trong đó một phần ngẫu nhiên của dân số không bị quảng cáo nhắm mục tiêu. nó bao gồm 25 triệu hàng, mỗi hàng đại diện cho một người dùng với 11 tính năng, chỉ báo điều trị và 2 nhãn (lượt truy cập và chuyển đổi).

Lĩnh vực

Dưới đây là mô tả chi tiết về các trường (chúng được phân tách bằng dấu phẩy trong tệp):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: giá trị tính năng (đặc, nổi)
  • điều trị: nhóm điều trị (1 = điều trị, 0 = kiểm soát)
  • chuyển đổi: liệu một chuyển đổi có xảy ra cho người dùng này không (nhị phân, nhãn)
  • truy cập: liệu một lượt truy cập có xảy ra cho người dùng này hay không (nhị phân, nhãn)
  • tiếp xúc: hiệu quả điều trị, liệu người dùng có tiếp xúc hiệu quả hay không (nhị phân)

Số liệu quan trọng

  • Định dạng: CSV
  • Kích thước: 459MB (nén)
  • Hàng: 25.309.483
  • Tỷ lệ truy cập trung bình: .04132
  • Tỷ lệ chuyển đổi trung bình: 0,00229
  • Tỷ lệ xử lý: .846

Nhiệm vụ

Tập dữ liệu được thu thập và chuẩn bị với mục đích chính là dự đoán mức tăng. Ngoài ra, chúng tôi có thể thấy trước các cách sử dụng liên quan, chẳng hạn như nhưng không giới hạn ở:

  • tiêu chuẩn cho suy luận nhân quả
  • mô hình nâng cao
  • tương tác giữa các tính năng và điều trị
  • điều trị không đồng nhất
  • tiêu chuẩn cho các phương pháp quan sát nhân quả

  • Trang chủ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Mã nguồn : tfds.recommendation.criteo.Criteo

  • Các phiên bản :

    • 1.0.0 (mặc định): Bản phát hành ban đầu.
  • Kích thước tải xuống : 297.00 MiB

  • Kích thước tập dữ liệu : 3.55 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 13,979,592
  • Cấu trúc tính năng :
FeaturesDict({
    'conversion': tf.bool,
    'exposure': tf.bool,
    'f0': tf.float32,
    'f1': tf.float32,
    'f10': tf.float32,
    'f11': tf.float32,
    'f2': tf.float32,
    'f3': tf.float32,
    'f4': tf.float32,
    'f5': tf.float32,
    'f6': tf.float32,
    'f7': tf.float32,
    'f8': tf.float32,
    'f9': tf.float32,
    'treatment': tf.int64,
    'visit': tf.bool,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
sự hoán cải Tensor tf.bool
Phơi bày Tensor tf.bool
f0 Tensor tf.float32
f1 Tensor tf.float32
f10 Tensor tf.float32
f11 Tensor tf.float32
f2 Tensor tf.float32
f3 Tensor tf.float32
f4 Tensor tf.float32
f5 Tensor tf.float32
f6 Tensor tf.float32
f7 Tensor tf.float32
f8 Tensor tf.float32
f9 Tensor tf.float32
sự đối đãi Tensor tf.int64
chuyến thăm Tensor tf.bool
  • Các phím được giám sát (Xem as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Ví dụ ( tfds.as_dataframe ):

  • Trích dẫn :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}