- 説明:
D4RL は、オフライン強化学習用のオープンソース ベンチマークです。トレーニングおよびベンチマーク アルゴリズム用の標準化された環境とデータセットを提供します。
データセットはRLDS 形式に従ってステップとエピソードを表します。
- 構成の説明: タスクとそのバージョンの詳細については、 https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroitを参照してください。 
- バージョン: -  1.0.0: 初期リリース。
-  1.1.0(デフォルト): is_last を追加しました。
 
-  
- 監視キー( - as_superviseddocを参照):- None
- 図( tfds.show_examples ): サポートされていません。 
- 引用: 
@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
d4rl_adroit_relocate/v0-human (デフォルト設定)
- ダウンロードサイズ: - 4.87 MiB
- データセットのサイズ: - 5.48 MiB
- 自動キャッシュ(ドキュメント): はい 
- 分割: 
| スプリット | 例 | 
|---|---|
| 'train' | 60 | 
- 機能の構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(30,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(36,), dtype=float32),
            'qvel': Tensor(shape=(36,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
- 機能ドキュメント:
| 特徴 | クラス | 形 | Dタイプ | 説明 | 
|---|---|---|---|---|
| 特徴辞書 | ||||
| ステップ | データセット | |||
| ステップ/アクション | テンソル | (30,) | float32 | |
| 歩数/割引 | テンソル | float32 | ||
| 手順/情報 | 特徴辞書 | |||
| ステップ/情報/qpos | テンソル | (36,) | float32 | |
| ステップ/情報/qvel | テンソル | (36,) | float32 | |
| ステップ/is_first | テンソル | ブール | ||
| ステップ/is_last | テンソル | ブール | ||
| ステップ/is_terminal | テンソル | ブール | ||
| ステップ/観察 | テンソル | (39,) | float32 | |
| 歩数/報酬 | テンソル | float32 | 
- 例( tfds.as_dataframe ):
d4rl_adroit_relocate/v0-cloned
- ダウンロードサイズ: - 647.11 MiB
- データセットのサイズ: - 550.50 MiB
- 自動キャッシュ(ドキュメント): いいえ 
- 分割: 
| スプリット | 例 | 
|---|---|
| 'train' | 5,519 | 
- 機能の構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(30,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(36,), dtype=float64),
            'qvel': Tensor(shape=(36,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float64),
        'reward': float64,
    }),
})
- 機能ドキュメント:
| 特徴 | クラス | 形 | Dタイプ | 説明 | 
|---|---|---|---|---|
| 特徴辞書 | ||||
| ステップ | データセット | |||
| ステップ/アクション | テンソル | (30,) | float32 | |
| 歩数/割引 | テンソル | float64 | ||
| 手順/情報 | 特徴辞書 | |||
| ステップ/情報/qpos | テンソル | (36,) | float64 | |
| ステップ/情報/qvel | テンソル | (36,) | float64 | |
| ステップ/is_first | テンソル | ブール | ||
| ステップ/is_last | テンソル | ブール | ||
| ステップ/is_terminal | テンソル | ブール | ||
| ステップ/観察 | テンソル | (39,) | float64 | |
| 歩数/報酬 | テンソル | float64 | 
- 例( tfds.as_dataframe ):
d4rl_adroit_relocate/v0-expert
- ダウンロードサイズ: - 581.53 MiB
- データセットのサイズ: - 778.97 MiB
- 自動キャッシュ(ドキュメント): いいえ 
- 分割: 
| スプリット | 例 | 
|---|---|
| 'train' | 5,000 | 
- 機能の構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(30,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(30,), dtype=float32),
            'action_mean': Tensor(shape=(30,), dtype=float32),
            'qpos': Tensor(shape=(36,), dtype=float32),
            'qvel': Tensor(shape=(36,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
- 機能ドキュメント:
| 特徴 | クラス | 形 | Dタイプ | 説明 | 
|---|---|---|---|---|
| 特徴辞書 | ||||
| ステップ | データセット | |||
| ステップ/アクション | テンソル | (30,) | float32 | |
| 歩数/割引 | テンソル | float32 | ||
| 手順/情報 | 特徴辞書 | |||
| ステップ/情報/action_logstd | テンソル | (30,) | float32 | |
| ステップ/情報/アクション_平均 | テンソル | (30,) | float32 | |
| ステップ/情報/qpos | テンソル | (36,) | float32 | |
| ステップ/情報/qvel | テンソル | (36,) | float32 | |
| ステップ/is_first | テンソル | ブール | ||
| ステップ/is_last | テンソル | ブール | ||
| ステップ/is_terminal | テンソル | ブール | ||
| ステップ/観察 | テンソル | (39,) | float32 | |
| 歩数/報酬 | テンソル | float32 | 
- 例( tfds.as_dataframe ):
d4rl_adroit_relocate/v1-human
- ダウンロードサイズ: - 5.92 MiB
- データセットのサイズ: - 6.94 MiB
- 自動キャッシュ(ドキュメント): はい 
- 分割: 
| スプリット | 例 | 
|---|---|
| 'train' | 25 | 
- 機能の構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(30,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'hand_qpos': Tensor(shape=(30,), dtype=float32),
            'obj_pos': Tensor(shape=(3,), dtype=float32),
            'palm_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(36,), dtype=float32),
            'qvel': Tensor(shape=(36,), dtype=float32),
            'target_pos': Tensor(shape=(3,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
- 機能ドキュメント:
| 特徴 | クラス | 形 | Dタイプ | 説明 | 
|---|---|---|---|---|
| 特徴辞書 | ||||
| ステップ | データセット | |||
| ステップ/アクション | テンソル | (30,) | float32 | |
| 歩数/割引 | テンソル | float32 | ||
| 手順/情報 | 特徴辞書 | |||
| ステップ/情報/hand_qpos | テンソル | (30,) | float32 | |
| ステップ/情報/obj_pos | テンソル | (3,) | float32 | |
| ステップ/情報/palm_pos | テンソル | (3,) | float32 | |
| ステップ/情報/qpos | テンソル | (36,) | float32 | |
| ステップ/情報/qvel | テンソル | (36,) | float32 | |
| ステップ/情報/target_pos | テンソル | (3,) | float32 | |
| ステップ/is_first | テンソル | ブール | ||
| ステップ/is_last | テンソル | ブール | ||
| ステップ/is_terminal | テンソル | ブール | ||
| ステップ/観察 | テンソル | (39,) | float32 | |
| 歩数/報酬 | テンソル | float32 | 
- 例( tfds.as_dataframe ):
d4rl_adroit_relocate/v1-cloned
- ダウンロードサイズ: - 554.39 MiB
- データセットのサイズ: - 1.86 GiB
- 自動キャッシュ(ドキュメント): いいえ 
- 分割: 
| スプリット | 例 | 
|---|---|
| 'train' | 3,758 | 
- 機能の構造:
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(39, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(30,), dtype=float32),
            'weight': Tensor(shape=(256, 30), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(30,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'hand_qpos': Tensor(shape=(30,), dtype=float32),
            'obj_pos': Tensor(shape=(3,), dtype=float32),
            'palm_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(36,), dtype=float32),
            'qvel': Tensor(shape=(36,), dtype=float32),
            'target_pos': Tensor(shape=(3,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
- 機能ドキュメント:
| 特徴 | クラス | 形 | Dタイプ | 説明 | 
|---|---|---|---|---|
| 特徴辞書 | ||||
| アルゴリズム | テンソル | 弦 | ||
| ポリシー | 特徴辞書 | |||
| ポリシー/fc0 | 特徴辞書 | |||
| ポリシー/fc0/バイアス | テンソル | (256,) | float32 | |
| ポリシー/fc0/重み | テンソル | (39,256) | float32 | |
| ポリシー/fc1 | 特徴辞書 | |||
| ポリシー/FC1/バイアス | テンソル | (256,) | float32 | |
| ポリシー/fc1/重み | テンソル | (256、256) | float32 | |
| ポリシー/last_fc | 特徴辞書 | |||
| ポリシー/last_fc/バイアス | テンソル | (30,) | float32 | |
| ポリシー/last_fc/weight | テンソル | (256, 30) | float32 | |
| ポリシー/非線形性 | テンソル | 弦 | ||
| ポリシー/出力_配布 | テンソル | 弦 | ||
| ステップ | データセット | |||
| ステップ/アクション | テンソル | (30,) | float32 | |
| 歩数/割引 | テンソル | float32 | ||
| 手順/情報 | 特徴辞書 | |||
| ステップ/情報/hand_qpos | テンソル | (30,) | float32 | |
| ステップ/情報/obj_pos | テンソル | (3,) | float32 | |
| ステップ/情報/palm_pos | テンソル | (3,) | float32 | |
| ステップ/情報/qpos | テンソル | (36,) | float32 | |
| ステップ/情報/qvel | テンソル | (36,) | float32 | |
| ステップ/情報/target_pos | テンソル | (3,) | float32 | |
| ステップ/is_first | テンソル | ブール | ||
| ステップ/is_last | テンソル | ブール | ||
| ステップ/is_terminal | テンソル | ブール | ||
| ステップ/観察 | テンソル | (39,) | float32 | |
| 歩数/報酬 | テンソル | float32 | 
- 例( tfds.as_dataframe ):
d4rl_adroit_relocate/v1-expert
- ダウンロードサイズ: - 682.47 MiB
- データセットのサイズ: - 1012.49 MiB
- 自動キャッシュ(ドキュメント): いいえ 
- 分割: 
| スプリット | 例 | 
|---|---|
| 'train' | 5,000 | 
- 機能の構造:
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 39), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 32), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(30,), dtype=float32),
            'weight': Tensor(shape=(30, 32), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(30,), dtype=float32),
            'weight': Tensor(shape=(30, 32), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(30,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(30,), dtype=float32),
            'action_mean': Tensor(shape=(30,), dtype=float32),
            'hand_qpos': Tensor(shape=(30,), dtype=float32),
            'obj_pos': Tensor(shape=(3,), dtype=float32),
            'palm_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(36,), dtype=float32),
            'qvel': Tensor(shape=(36,), dtype=float32),
            'target_pos': Tensor(shape=(3,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
- 機能ドキュメント:
| 特徴 | クラス | 形 | Dタイプ | 説明 | 
|---|---|---|---|---|
| 特徴辞書 | ||||
| アルゴリズム | テンソル | 弦 | ||
| ポリシー | 特徴辞書 | |||
| ポリシー/fc0 | 特徴辞書 | |||
| ポリシー/fc0/バイアス | テンソル | (32,) | float32 | |
| ポリシー/fc0/重み | テンソル | (32、39) | float32 | |
| ポリシー/fc1 | 特徴辞書 | |||
| ポリシー/FC1/バイアス | テンソル | (32,) | float32 | |
| ポリシー/fc1/重み | テンソル | (32, 32) | float32 | |
| ポリシー/last_fc | 特徴辞書 | |||
| ポリシー/last_fc/バイアス | テンソル | (30,) | float32 | |
| ポリシー/last_fc/weight | テンソル | (30、32) | float32 | |
| ポリシー/last_fc_log_std | 特徴辞書 | |||
| ポリシー/last_fc_log_std/bias | テンソル | (30,) | float32 | |
| ポリシー/last_fc_log_std/weight | テンソル | (30、32) | float32 | |
| ポリシー/非線形性 | テンソル | 弦 | ||
| ポリシー/出力_配布 | テンソル | 弦 | ||
| ステップ | データセット | |||
| ステップ/アクション | テンソル | (30,) | float32 | |
| 歩数/割引 | テンソル | float32 | ||
| 手順/情報 | 特徴辞書 | |||
| ステップ/infos/action_log_std | テンソル | (30,) | float32 | |
| ステップ/情報/アクション_平均 | テンソル | (30,) | float32 | |
| ステップ/情報/hand_qpos | テンソル | (30,) | float32 | |
| ステップ/情報/obj_pos | テンソル | (3,) | float32 | |
| ステップ/情報/palm_pos | テンソル | (3,) | float32 | |
| ステップ/情報/qpos | テンソル | (36,) | float32 | |
| ステップ/情報/qvel | テンソル | (36,) | float32 | |
| ステップ/情報/target_pos | テンソル | (3,) | float32 | |
| ステップ/is_first | テンソル | ブール | ||
| ステップ/is_last | テンソル | ブール | ||
| ステップ/is_terminal | テンソル | ブール | ||
| ステップ/観察 | テンソル | (39,) | float32 | |
| 歩数/報酬 | テンソル | float32 | 
- 例( tfds.as_dataframe ):