- תיאור :
ערכת נתונים של Criteo Uplift Modeling
מערך נתונים זה שוחרר יחד עם המאמר: "A Large Scale Benchmark for Uplift Modeling" Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
עבודה זו פורסמה ב: AdKDD 2018 Workshop, בשיתוף עם KDD 2018.
תיאור הנתונים
מערך נתונים זה נבנה על ידי הרכבת נתונים הנובעים ממספר מבחני אינקרמנטליות, הליך ניסוי אקראי מסוים שבו חלק אקראי מהאוכלוסייה מונע ממוקד על ידי פרסום. הוא מורכב מ-25 מיליון שורות, כל אחת מייצגת משתמש עם 11 תכונות, מחוון טיפול ו-2 תוויות (ביקורים והמרות).
שדות
להלן תיאור מפורט של השדות (הם מופרדים בפסיקים בקובץ):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ערכי תכונה (צפוף, צף)
- טיפול: קבוצת טיפול (1 = מטופל, 0 = ביקורת)
- המרה: האם התרחשה המרה עבור משתמש זה (בינארי, תווית)
- ביקור: האם התרחש ביקור עבור משתמש זה (בינארי, תווית)
- חשיפה: השפעת הטיפול, האם המשתמש נחשף ביעילות (בינארי)
דמויות מפתח
- פורמט: CSV
- גודל: 459MB (דחוס)
- שורות: 25,309,483
- שיעור ביקור ממוצע: .04132
- שיעור המרה ממוצע: .00229
- יחס טיפול: .846
משימות
מערך הנתונים נאסף והוכן מתוך מחשבה על חיזוי העלאה כמשימה העיקרית. בנוסף אנו יכולים לחזות שימושים קשורים כגון אך לא רק:
- אמת מידה להסקה סיבתית
- דוגמנות עילוי
- אינטראקציות בין תכונות וטיפול
- הטרוגניות של הטיפול
אמת מידה לשיטות סיבתיות תצפיתיות
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
קוד מקור :
tfds.recommendation.criteo.Criteo
גרסאות :
-
1.0.0
: שחרור ראשוני. -
1.0.1
(ברירת מחדל): ניתוח קבוע שלconversion
שדות,visit
exposure
.
-
גודל הורדה :
297.00 MiB
גודל מערך נתונים :
3.55 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 13,979,592 |
- מבנה תכונה :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
הֲמָרָה | מוֹתֵחַ | bool | ||
חשיפה | מוֹתֵחַ | bool | ||
f0 | מוֹתֵחַ | לצוף32 | ||
f1 | מוֹתֵחַ | לצוף32 | ||
f10 | מוֹתֵחַ | לצוף32 | ||
f11 | מוֹתֵחַ | לצוף32 | ||
f2 | מוֹתֵחַ | לצוף32 | ||
f3 | מוֹתֵחַ | לצוף32 | ||
f4 | מוֹתֵחַ | לצוף32 | ||
f5 | מוֹתֵחַ | לצוף32 | ||
f6 | מוֹתֵחַ | לצוף32 | ||
f7 | מוֹתֵחַ | לצוף32 | ||
f8 | מוֹתֵחַ | לצוף32 | ||
f9 | מוֹתֵחַ | לצוף32 | ||
יַחַס | מוֹתֵחַ | int64 | ||
לְבַקֵר | מוֹתֵחַ | bool |
מפתחות בפיקוח (ראה
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}