- คำอธิบาย :
ชุดข้อมูลการสร้างแบบจำลอง Criteo Uplift
ชุดข้อมูลนี้เผยแพร่พร้อมกับกระดาษ: “เกณฑ์มาตรฐานขนาดใหญ่สำหรับการสร้างแบบจำลองยกระดับ” Eustache Diemert, Artem Betlei, Christophe Renaudin; (ห้องปฏิบัติการ Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)
งานนี้เผยแพร่ใน: AdKDD 2018 Workshop ร่วมกับ KDD 2018
คำอธิบายข้อมูล
ชุดข้อมูลนี้สร้างขึ้นโดยการรวบรวมข้อมูลที่เกิดจากการทดสอบการเพิ่มขึ้นหลายครั้ง ซึ่งเป็นขั้นตอนการทดลองแบบสุ่มโดยเฉพาะที่กลุ่มประชากรแบบสุ่มถูกป้องกันไม่ให้ตกเป็นเป้าหมายโดยการโฆษณา ประกอบด้วยแถว 25 ล้านแถว แต่ละแถวแสดงถึงผู้ใช้ที่มีคุณสมบัติ 11 รายการ ตัวบ่งชี้การรักษา และป้ายกำกับ 2 ป้าย (การเข้าชมและการแปลง)
เขตข้อมูล
ต่อไปนี้คือคำอธิบายโดยละเอียดของฟิลด์ (ในไฟล์จะคั่นด้วยเครื่องหมายจุลภาค):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ค่าคุณลักษณะ (หนาแน่น, ลอย)
- การรักษา: กลุ่มการรักษา (1 = รักษา, 0 = ควบคุม)
- การแปลง: การแปลงเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
- การเข้าชม: การเข้าชมเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
- การสัมผัส: ผลการรักษา ไม่ว่าผู้ใช้จะได้รับสัมผัสอย่างมีประสิทธิภาพหรือไม่ (ไบนารี)
ตัวเลขที่สำคัญ
- รูปแบบ: CSV
- ขนาด: 459MB (บีบอัด)
- แถว: 25,309,483
- อัตราการเข้าชมเฉลี่ย: .04132
- อัตราการแปลงเฉลี่ย: .00229
- อัตราการรักษา: .846
งาน
ชุดข้อมูลได้รับการรวบรวมและจัดทำขึ้นโดยคำนึงถึงการคาดการณ์การยกระดับเป็นงานหลัก นอกจากนี้ เราสามารถคาดการณ์การใช้งานที่เกี่ยวข้อง เช่นแต่ไม่จำกัดเพียง:
- เกณฑ์มาตรฐานสำหรับการอนุมานเชิงสาเหตุ
- การสร้างแบบจำลองยก
- ปฏิสัมพันธ์ระหว่างคุณสมบัติและการรักษา
- ความแตกต่างของการรักษา
เกณฑ์มาตรฐานสำหรับวิธีการเชิงสาเหตุเชิงสังเกต
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
รหัสที่มา :
tfds.recommendation.criteo.Criteo
รุ่น :
-
1.0.0
: การเปิดตัวครั้งแรก -
1.0.1
(ค่าเริ่มต้น): แก้ไขการแยกวิเคราะห์conversion
ฟิลด์ การvisit
และexposure
-
ขนาดการดาวน์โหลด :
297.00 MiB
ขนาดชุดข้อมูล :
3.55 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 13,979,592 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
การแปลง | เทนเซอร์ | บูล | ||
การเปิดรับแสง | เทนเซอร์ | บูล | ||
ฉ0 | เทนเซอร์ | ลอย32 | ||
ฉ.1 | เทนเซอร์ | ลอย32 | ||
ฉ10 | เทนเซอร์ | ลอย32 | ||
ฉ11 | เทนเซอร์ | ลอย32 | ||
f2 | เทนเซอร์ | ลอย32 | ||
f3 | เทนเซอร์ | ลอย32 | ||
f4 | เทนเซอร์ | ลอย32 | ||
f5 | เทนเซอร์ | ลอย32 | ||
ฉ.6 | เทนเซอร์ | ลอย32 | ||
f7 | เทนเซอร์ | ลอย32 | ||
f8 | เทนเซอร์ | ลอย32 | ||
ฉ.9 | เทนเซอร์ | ลอย32 | ||
การรักษา | เทนเซอร์ | int64 | ||
เยี่ยม | เทนเซอร์ | บูล |
คีย์ควบคุม (ดู
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
, - คำอธิบาย :
ชุดข้อมูลการสร้างแบบจำลอง Criteo Uplift
ชุดข้อมูลนี้เผยแพร่พร้อมกับกระดาษ: “เกณฑ์มาตรฐานขนาดใหญ่สำหรับการสร้างแบบจำลองยกระดับ” Eustache Diemert, Artem Betlei, Christophe Renaudin; (ห้องปฏิบัติการ Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)
งานนี้เผยแพร่ใน: AdKDD 2018 Workshop ร่วมกับ KDD 2018
คำอธิบายข้อมูล
ชุดข้อมูลนี้สร้างขึ้นโดยการรวบรวมข้อมูลที่เกิดจากการทดสอบการเพิ่มขึ้นหลายครั้ง ซึ่งเป็นขั้นตอนการทดลองแบบสุ่มโดยเฉพาะที่กลุ่มประชากรแบบสุ่มถูกป้องกันไม่ให้ตกเป็นเป้าหมายโดยการโฆษณา ประกอบด้วยแถว 25 ล้านแถว แต่ละแถวแสดงถึงผู้ใช้ที่มีคุณสมบัติ 11 รายการ ตัวบ่งชี้การรักษา และป้ายกำกับ 2 ป้าย (การเข้าชมและการแปลง)
เขตข้อมูล
ต่อไปนี้คือคำอธิบายโดยละเอียดของฟิลด์ (ในไฟล์จะคั่นด้วยเครื่องหมายจุลภาค):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ค่าคุณลักษณะ (หนาแน่น, ลอย)
- การรักษา: กลุ่มการรักษา (1 = รักษา, 0 = ควบคุม)
- การแปลง: การแปลงเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
- การเข้าชม: การเข้าชมเกิดขึ้นสำหรับผู้ใช้รายนี้หรือไม่ (ไบนารี ป้ายกำกับ)
- การสัมผัส: ผลการรักษา ไม่ว่าผู้ใช้จะได้รับสัมผัสอย่างมีประสิทธิภาพหรือไม่ (ไบนารี)
ตัวเลขที่สำคัญ
- รูปแบบ: CSV
- ขนาด: 459MB (บีบอัด)
- แถว: 25,309,483
- อัตราการเข้าชมเฉลี่ย: .04132
- อัตราการแปลงเฉลี่ย: .00229
- อัตราการรักษา: .846
งาน
ชุดข้อมูลได้รับการรวบรวมและจัดทำขึ้นโดยคำนึงถึงการคาดการณ์การยกระดับเป็นงานหลัก นอกจากนี้ เราสามารถคาดการณ์การใช้งานที่เกี่ยวข้อง เช่นแต่ไม่จำกัดเพียง:
- เกณฑ์มาตรฐานสำหรับการอนุมานเชิงสาเหตุ
- การสร้างแบบจำลองยก
- ปฏิสัมพันธ์ระหว่างคุณสมบัติและการรักษา
- ความแตกต่างของการรักษา
เกณฑ์มาตรฐานสำหรับวิธีการเชิงสาเหตุเชิงสังเกต
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
รหัสที่มา :
tfds.recommendation.criteo.Criteo
รุ่น :
-
1.0.0
: การเปิดตัวครั้งแรก -
1.0.1
(ค่าเริ่มต้น): แก้ไขการแยกวิเคราะห์conversion
ฟิลด์ การvisit
และexposure
-
ขนาดการดาวน์โหลด :
297.00 MiB
ขนาดชุดข้อมูล :
3.55 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 13,979,592 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
การแปลง | เทนเซอร์ | บูล | ||
การเปิดรับแสง | เทนเซอร์ | บูล | ||
ฉ0 | เทนเซอร์ | ลอย32 | ||
ฉ.1 | เทนเซอร์ | ลอย32 | ||
ฉ10 | เทนเซอร์ | ลอย32 | ||
ฉ11 | เทนเซอร์ | ลอย32 | ||
f2 | เทนเซอร์ | ลอย32 | ||
f3 | เทนเซอร์ | ลอย32 | ||
f4 | เทนเซอร์ | ลอย32 | ||
f5 | เทนเซอร์ | ลอย32 | ||
ฉ.6 | เทนเซอร์ | ลอย32 | ||
f7 | เทนเซอร์ | ลอย32 | ||
f8 | เทนเซอร์ | ลอย32 | ||
ฉ.9 | เทนเซอร์ | ลอย32 | ||
การรักษา | เทนเซอร์ | int64 | ||
เยี่ยม | เทนเซอร์ | บูล |
คีย์ควบคุม (ดู
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}