クリテオ
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
Criteo アップリフト モデリング データセット
このデータセットは、「A Large Scale Benchmark for Uplift Modeling」という論文とともにリリースされています。Eustache Diemert、Artem Betlei、Christophe Renaudin (Criteo AI Lab)、Massih-Reza Amini (LIG、Grenoble INP)
この作品は、KDD 2018 と連携して、AdKDD 2018 ワークショップで公開されました。
データの説明
このデータセットは、人口のランダムな部分が広告の対象にならないようにする特定の無作為試験手順である、いくつかのインクリメンタリティ テストから得られたデータを集めて構築されます。これは 2,500 万行で構成され、各行は 11 の機能、処理インジケーター、および 2 つのラベル (訪問とコンバージョン) を持つユーザーを表します。
田畑
以下は、フィールドの詳細な説明です (ファイル内ではコンマで区切られています)。
- f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f11: 特徴値 (dense、float)
- 治療: 治療群 (1 = 治療、0 = コントロール)
- conversion: このユーザーのコンバージョンが発生したかどうか (バイナリ、ラベル)
- 訪問: このユーザーの訪問が発生したかどうか (バイナリ、ラベル)
- 暴露: 治療効果、ユーザーが効果的に暴露されたかどうか (バイナリ)
- フォーマット: CSV
- サイズ:459MB(圧縮)
- 行: 25,309,483
- 平均訪問率: .04132
- 平均コンバージョン率: .00229
- 治療比率: .846
タスク
データセットは、主なタスクとして上昇予測を念頭に置いて収集および準備されました。さらに、次のような関連する使用法を予測できますが、これらに限定されません。
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
特徴 | クラス | 形 | Dtype | 説明 |
---|
| 特徴辞書 | | | |
変換 | テンソル | | ブール | |
曝露 | テンソル | | ブール | |
f0 | テンソル | | float32 | |
f1 | テンソル | | float32 | |
f10 | テンソル | | float32 | |
f11 | テンソル | | float32 | |
f2 | テンソル | | float32 | |
f3 | テンソル | | float32 | |
f4 | テンソル | | float32 | |
f5 | テンソル | | float32 | |
f6 | テンソル | | float32 | |
f7 | テンソル | | float32 | |
f8 | テンソル | | float32 | |
f9 | テンソル | | float32 | |
処理 | テンソル | | int64 | |
訪問 | テンソル | | ブール | |
監視キー( as_supervised
docを参照): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2022-12-22 UTC。
[null,null,["最終更新日 2022-12-22 UTC。"],[],[],null,["# criteo\n\n\u003cbr /\u003e\n\n- **Description**:\n\nCriteo Uplift Modeling Dataset\n==============================\n\nThis dataset is released along with the paper: \"A Large Scale Benchmark for\nUplift Modeling\" Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI\nLab), Massih-Reza Amini (LIG, Grenoble INP)\n\nThis work was published in: AdKDD 2018 Workshop, in conjunction with KDD 2018.\n\n### Data description\n\nThis dataset is constructed by assembling data resulting from several\nincrementality tests, a particular randomized trial procedure where a random\npart of the population is prevented from being targeted by advertising. it\nconsists of 25M rows, each one representing a user with 11 features, a treatment\nindicator and 2 labels (visits and conversions).\n\n### Fields\n\nHere is a detailed description of the fields (they are comma-separated in the\nfile):\n\n- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: feature values (dense, float)\n- treatment: treatment group (1 = treated, 0 = control)\n- conversion: whether a conversion occured for this user (binary, label)\n- visit: whether a visit occured for this user (binary, label)\n- exposure: treatment effect, whether the user has been effectively exposed (binary)\n\n### Key figures\n\n- Format: CSV\n- Size: 459MB (compressed)\n- Rows: 25,309,483\n- Average Visit Rate: .04132\n- Average Conversion Rate: .00229\n- Treatment Ratio: .846\n\n### Tasks\n\nThe dataset was collected and prepared with uplift prediction in mind as the\nmain task. Additionally we can foresee related usages such as but not limited\nto:\n\n- benchmark for causal inference\n- uplift modeling\n- interactions between features and treatment\n- heterogeneity of treatment\n- benchmark for observational causality methods\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/criteo)\n\n- **Homepage** :\n \u003chttps://ailab.criteo.com/criteo-uplift-prediction-dataset/\u003e\n\n- **Source code** :\n [`tfds.recommendation.criteo.Criteo`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/recommendation/criteo/criteo.py)\n\n- **Versions**:\n\n - `1.0.0`: Initial release.\n - **`1.0.1`** (default): Fixed parsing of fields `conversion`, `visit` and `exposure`.\n- **Download size** : `297.00 MiB`\n\n- **Dataset size** : `3.55 GiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n No\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|------------|\n| `'train'` | 13,979,592 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'conversion': bool,\n 'exposure': bool,\n 'f0': float32,\n 'f1': float32,\n 'f10': float32,\n 'f11': float32,\n 'f2': float32,\n 'f3': float32,\n 'f4': float32,\n 'f5': float32,\n 'f6': float32,\n 'f7': float32,\n 'f8': float32,\n 'f9': float32,\n 'treatment': int64,\n 'visit': bool,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| conversion | Tensor | | bool | |\n| exposure | Tensor | | bool | |\n| f0 | Tensor | | float32 | |\n| f1 | Tensor | | float32 | |\n| f10 | Tensor | | float32 | |\n| f11 | Tensor | | float32 | |\n| f2 | Tensor | | float32 | |\n| f3 | Tensor | | float32 | |\n| f4 | Tensor | | float32 | |\n| f5 | Tensor | | float32 | |\n| f6 | Tensor | | float32 | |\n| f7 | Tensor | | float32 | |\n| f8 | Tensor | | float32 | |\n| f9 | Tensor | | float32 | |\n| treatment | Tensor | | int64 | |\n| visit | Tensor | | bool | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11':\n 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7':\n 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @inproceedings{Diemert2018,\n author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},\n title={A Large Scale Benchmark for Uplift Modeling},\n publisher = {ACM},\n booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},\n year = {2018}\n }"]]