criteo

  • คำอธิบาย :

ชุดข้อมูลการสร้างแบบจำลอง Criteo Uplift

ชุดข้อมูลนี้เผยแพร่พร้อมกับกระดาษ: “เกณฑ์มาตรฐานขนาดใหญ่สำหรับการสร้างแบบจำลองยกระดับ” Eustache Diemert, Artem Betlei, Christophe Renaudin; (ห้องปฏิบัติการ Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)

งานนี้เผยแพร่ใน: AdKDD 2018 Workshop ร่วมกับ KDD 2018

คำอธิบายข้อมูล

ชุดข้อมูลนี้สร้างขึ้นโดยการรวบรวมข้อมูลที่เกิดจากการทดสอบการเพิ่มขึ้นหลายครั้ง ซึ่งเป็นขั้นตอนการทดลองแบบสุ่มโดยเฉพาะที่กลุ่มประชากรแบบสุ่มถูกป้องกันไม่ให้ตกเป็นเป้าหมายโดยการโฆษณา ประกอบด้วยแถว 25 ล้านแถว แต่ละแถวแสดงถึงผู้ใช้ที่มีคุณสมบัติ 11 รายการ ตัวบ่งชี้การรักษา และป้ายกำกับ 2 ป้าย (การเข้าชมและการแปลง)

เขตข้อมูล

ต่อไปนี้คือคำอธิบายโดยละเอียดของฟิลด์ (ในไฟล์จะคั่นด้วยเครื่องหมายจุลภาค):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ค่าคุณลักษณะ (หนาแน่น, ลอย)
  • การรักษา: กลุ่มการรักษา (1 = รักษา, 0 = ควบคุม)
  • การแปลง: การแปลงเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
  • การเข้าชม: การเข้าชมเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
  • การสัมผัส: ผลการรักษา ไม่ว่าผู้ใช้จะได้รับสัมผัสอย่างมีประสิทธิภาพหรือไม่ (ไบนารี)

ตัวเลขที่สำคัญ

  • รูปแบบ: CSV
  • ขนาด: 459MB (บีบอัด)
  • แถว: 25,309,483
  • อัตราการเข้าชมเฉลี่ย: .04132
  • อัตราการแปลงเฉลี่ย: .00229
  • อัตราการรักษา: .846

งาน

ชุดข้อมูลได้รับการรวบรวมและจัดทำขึ้นโดยคำนึงถึงการคาดการณ์การยกระดับเป็นงานหลัก นอกจากนี้ เราสามารถคาดการณ์การใช้งานที่เกี่ยวข้อง เช่นแต่ไม่จำกัดเพียง:

  • เกณฑ์มาตรฐานสำหรับการอนุมานเชิงสาเหตุ
  • การสร้างแบบจำลองยก
  • ปฏิสัมพันธ์ระหว่างคุณสมบัติและการรักษา
  • ความแตกต่างของการรักษา
  • เกณฑ์มาตรฐานสำหรับวิธีการเชิงสาเหตุเชิงสังเกต

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • รหัสที่มา : tfds.recommendation.criteo.Criteo

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.0.1 (ค่าเริ่มต้น): แก้ไขการแยกวิเคราะห์ conversion ฟิลด์ การ visit และ exposure
  • ขนาดการดาวน์โหลด : 297.00 MiB

  • ขนาดชุดข้อมูล : 3.55 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 13,979,592
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
การแปลง เทนเซอร์ บูล
การเปิดรับแสง เทนเซอร์ บูล
ฉ0 เทนเซอร์ ลอย32
ฉ.1 เทนเซอร์ ลอย32
ฉ10 เทนเซอร์ ลอย32
ฉ11 เทนเซอร์ ลอย32
f2 เทนเซอร์ ลอย32
f3 เทนเซอร์ ลอย32
f4 เทนเซอร์ ลอย32
f5 เทนเซอร์ ลอย32
ฉ.6 เทนเซอร์ ลอย32
f7 เทนเซอร์ ลอย32
f8 เทนเซอร์ ลอย32
ฉ.9 เทนเซอร์ ลอย32
การรักษา เทนเซอร์ int64
เยี่ยม เทนเซอร์ บูล
  • คีย์ควบคุม (ดู as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • ตัวอย่าง ( tfds.as_dataframe ):

  • การอ้างอิง :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
,

  • คำอธิบาย :

ชุดข้อมูลการสร้างแบบจำลอง Criteo Uplift

ชุดข้อมูลนี้เผยแพร่พร้อมกับกระดาษ: “เกณฑ์มาตรฐานขนาดใหญ่สำหรับการสร้างแบบจำลองยกระดับ” Eustache Diemert, Artem Betlei, Christophe Renaudin; (ห้องปฏิบัติการ Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)

งานนี้เผยแพร่ใน: AdKDD 2018 Workshop ร่วมกับ KDD 2018

คำอธิบายข้อมูล

ชุดข้อมูลนี้สร้างขึ้นโดยการรวบรวมข้อมูลที่เกิดจากการทดสอบการเพิ่มขึ้นหลายครั้ง ซึ่งเป็นขั้นตอนการทดลองแบบสุ่มโดยเฉพาะที่กลุ่มประชากรแบบสุ่มถูกป้องกันไม่ให้ตกเป็นเป้าหมายโดยการโฆษณา ประกอบด้วยแถว 25 ล้านแถว แต่ละแถวแสดงถึงผู้ใช้ที่มีคุณสมบัติ 11 รายการ ตัวบ่งชี้การรักษา และป้ายกำกับ 2 ป้าย (การเข้าชมและการแปลง)

เขตข้อมูล

ต่อไปนี้คือคำอธิบายโดยละเอียดของฟิลด์ (ในไฟล์จะคั่นด้วยเครื่องหมายจุลภาค):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ค่าคุณลักษณะ (หนาแน่น, ลอย)
  • การรักษา: กลุ่มการรักษา (1 = รักษา, 0 = ควบคุม)
  • การแปลง: การแปลงเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
  • การเข้าชม: การเข้าชมเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
  • การสัมผัส: ผลการรักษา ไม่ว่าผู้ใช้จะได้รับสัมผัสอย่างมีประสิทธิภาพหรือไม่ (ไบนารี)

ตัวเลขที่สำคัญ

  • รูปแบบ: CSV
  • ขนาด: 459MB (บีบอัด)
  • แถว: 25,309,483
  • อัตราการเข้าชมเฉลี่ย: .04132
  • อัตราการแปลงเฉลี่ย: .00229
  • อัตราการรักษา: .846

งาน

ชุดข้อมูลได้รับการรวบรวมและจัดทำขึ้นโดยคำนึงถึงการคาดการณ์การยกระดับเป็นงานหลัก นอกจากนี้ เราสามารถคาดการณ์การใช้งานที่เกี่ยวข้อง เช่นแต่ไม่จำกัดเพียง:

  • เกณฑ์มาตรฐานสำหรับการอนุมานเชิงสาเหตุ
  • การสร้างแบบจำลองยก
  • ปฏิสัมพันธ์ระหว่างคุณสมบัติและการรักษา
  • ความแตกต่างของการรักษา
  • เกณฑ์มาตรฐานสำหรับวิธีการเชิงสาเหตุเชิงสังเกต

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • รหัสที่มา : tfds.recommendation.criteo.Criteo

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.0.1 (ค่าเริ่มต้น): แก้ไขการแยกวิเคราะห์ conversion ฟิลด์ การ visit และ exposure
  • ขนาดการดาวน์โหลด : 297.00 MiB

  • ขนาดชุดข้อมูล : 3.55 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 13,979,592
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
การแปลง เทนเซอร์ บูล
การเปิดรับแสง เทนเซอร์ บูล
ฉ0 เทนเซอร์ ลอย32
ฉ.1 เทนเซอร์ ลอย32
ฉ10 เทนเซอร์ ลอย32
ฉ11 เทนเซอร์ ลอย32
f2 เทนเซอร์ ลอย32
f3 เทนเซอร์ ลอย32
f4 เทนเซอร์ ลอย32
f5 เทนเซอร์ ลอย32
ฉ.6 เทนเซอร์ ลอย32
f7 เทนเซอร์ ลอย32
f8 เทนเซอร์ ลอย32
ฉ.9 เทนเซอร์ ลอย32
การรักษา เทนเซอร์ int64
เยี่ยม เทนเซอร์ บูล
  • คีย์ควบคุม (ดู as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • ตัวอย่าง ( tfds.as_dataframe ):

  • การอ้างอิง :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}