- 説明:
D4RLは、オフライン強化学習のためのオープンソースベンチマークです。トレーニングおよびベンチマークアルゴリズム用の標準化された環境とデータセットを提供します。
データセットはRLDS形式に従って、ステップとエピソードを表します。
構成の説明:タスクとそのバージョンの詳細については、 https://github.com/rail-berkeley/d4rl/wiki/Tasks#gymを参照してください。
ホームページ: https ://sites.google.com/view/d4rl/home
バージョン:
-
1.0.0
:初期リリース。 -
1.1.0
:is_lastを追加しました。 -
1.2.0
(デフォルト):次の観測を考慮に入れるように更新されました。
-
監視対象キー(
as_supervised
docを参照):None
図( tfds.show_examples ):サポートされていません。
引用:
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_hopper / v0-エキスパート(デフォルトの構成)
ダウンロードサイズ:
51.56 MiB
データセットサイズ:
64.10 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 1,029 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-中
ダウンロードサイズ:
51.74 MiB
データセットサイズ:
64.68 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 3,064 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-中程度の専門家
ダウンロードサイズ:
62.01 MiB
データセットサイズ:
77.25 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 2,277 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-混合
ダウンロードサイズ:
10.48 MiB
データセットサイズ:
13.15 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 1,250 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-ランダム
ダウンロードサイズ:
51.83 MiB
データセットサイズ:
66.06 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 8,793 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-エキスパート
ダウンロードサイズ:
93.19 MiB
データセットサイズ:
608.03 MiB
自動キャッシュ(ドキュメント):いいえ
分割:
スプリット | 例 |
---|---|
'train' | 1,836 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
ポリシー | FeaturesDict | |||
policy / fc0 | FeaturesDict | |||
policy / fc0 /bias | テンソル | (256、) | tf.float32 | |
policy / fc0 / weight | テンソル | (256、11) | tf.float32 | |
ポリシー/fc1 | FeaturesDict | |||
policy / fc1 / bias | テンソル | (256、) | tf.float32 | |
policy / fc1 / weight | テンソル | (256、256) | tf.float32 | |
policy / last_fc | FeaturesDict | |||
policy / last_fc / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc / weight | テンソル | (3、256) | tf.float32 | |
policy / last_fc_log_std | FeaturesDict | |||
policy / last_fc_log_std / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc_log_std / weight | テンソル | (3、256) | tf.float32 | |
ポリシー/非線形性 | テンソル | tf.string | ||
policy / output_distribution | テンソル | tf.string | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float32 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float32 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float32 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-medium
ダウンロードサイズ:
92.03 MiB
データセットサイズ:
1.78 GiB
自動キャッシュ(ドキュメント):いいえ
分割:
スプリット | 例 |
---|---|
'train' | 6,328 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
ポリシー | FeaturesDict | |||
policy / fc0 | FeaturesDict | |||
policy / fc0 /bias | テンソル | (256、) | tf.float32 | |
policy / fc0 / weight | テンソル | (256、11) | tf.float32 | |
ポリシー/fc1 | FeaturesDict | |||
policy / fc1 / bias | テンソル | (256、) | tf.float32 | |
policy / fc1 / weight | テンソル | (256、256) | tf.float32 | |
policy / last_fc | FeaturesDict | |||
policy / last_fc / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc / weight | テンソル | (3、256) | tf.float32 | |
policy / last_fc_log_std | FeaturesDict | |||
policy / last_fc_log_std / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc_log_std / weight | テンソル | (3、256) | tf.float32 | |
ポリシー/非線形性 | テンソル | tf.string | ||
policy / output_distribution | テンソル | tf.string | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float32 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float32 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float32 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-中程度の専門家
ダウンロードサイズ:
184.59 MiB
データセットサイズ:
230.24 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
(train)の場合のみ分割:
スプリット | 例 |
---|---|
'train' | 8,163 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float32 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float32 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float32 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-中程度の再生
ダウンロードサイズ:
55.65 MiB
データセットサイズ:
34.78 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 1,151 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float64 | |
ステップ/割引 | テンソル | tf.float64 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float64 | |
ステップ/報酬 | テンソル | tf.float64 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-フルリプレイ
ダウンロードサイズ:
183.32 MiB
データセットサイズ:
114.78 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 2,907 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float64 | |
ステップ/割引 | テンソル | tf.float64 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float64 | |
ステップ/報酬 | テンソル | tf.float64 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-ランダム
ダウンロードサイズ:
91.11 MiB
データセットサイズ:
130.73 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
(train)の場合のみ分割:
スプリット | 例 |
---|---|
'train' | 45,265 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float32 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float32 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float32 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-エキスパート
ダウンロードサイズ:
145.37 MiB
データセットサイズ:
390.40 MiB
自動キャッシュ(ドキュメント):いいえ
分割:
スプリット | 例 |
---|---|
'train' | 1,028 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
ポリシー | FeaturesDict | |||
policy / fc0 | FeaturesDict | |||
policy / fc0 /bias | テンソル | (256、) | tf.float32 | |
policy / fc0 / weight | テンソル | (256、11) | tf.float32 | |
ポリシー/fc1 | FeaturesDict | |||
policy / fc1 / bias | テンソル | (256、) | tf.float32 | |
policy / fc1 / weight | テンソル | (256、256) | tf.float32 | |
policy / last_fc | FeaturesDict | |||
policy / last_fc / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc / weight | テンソル | (3、256) | tf.float32 | |
policy / last_fc_log_std | FeaturesDict | |||
policy / last_fc_log_std / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc_log_std / weight | テンソル | (3、256) | tf.float32 | |
ポリシー/非線形性 | テンソル | tf.string | ||
policy / output_distribution | テンソル | tf.string | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-フルリプレイ
ダウンロードサイズ:
179.29 MiB
データセットサイズ:
115.04 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 3,515 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-medium
ダウンロードサイズ:
145.68 MiB
データセットサイズ:
702.57 MiB
自動キャッシュ(ドキュメント):いいえ
分割:
スプリット | 例 |
---|---|
'train' | 2,187 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
ポリシー | FeaturesDict | |||
policy / fc0 | FeaturesDict | |||
policy / fc0 /bias | テンソル | (256、) | tf.float32 | |
policy / fc0 / weight | テンソル | (256、11) | tf.float32 | |
ポリシー/fc1 | FeaturesDict | |||
policy / fc1 / bias | テンソル | (256、) | tf.float32 | |
policy / fc1 / weight | テンソル | (256、256) | tf.float32 | |
policy / last_fc | FeaturesDict | |||
policy / last_fc / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc / weight | テンソル | (3、256) | tf.float32 | |
policy / last_fc_log_std | FeaturesDict | |||
policy / last_fc_log_std / bias | テンソル | (3、) | tf.float32 | |
policy / last_fc_log_std / weight | テンソル | (3、256) | tf.float32 | |
ポリシー/非線形性 | テンソル | tf.string | ||
policy / output_distribution | テンソル | tf.string | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-中程度の専門家
ダウンロードサイズ:
290.43 MiB
データセットサイズ:
228.28 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
(train)の場合のみ分割:
スプリット | 例 |
---|---|
'train' | 3,214 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-中程度の再生
ダウンロードサイズ:
72.34 MiB
データセットサイズ:
46.51 MiB
自動キャッシュ(ドキュメント):はい
分割:
スプリット | 例 |
---|---|
'train' | 2,041 |
- 機能構造:
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
アルゴリズム | テンソル | tf.string | ||
反復 | テンソル | tf.int32 | ||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-ランダム
ダウンロードサイズ:
145.46 MiB
データセットサイズ:
130.72 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
(train)の場合のみ分割:
スプリット | 例 |
---|---|
'train' | 45,240 |
- 機能構造:
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
手順 | データセット | |||
ステップ/アクション | テンソル | (3、) | tf.float32 | |
ステップ/割引 | テンソル | tf.float32 | ||
ステップ/情報 | FeaturesDict | |||
ステップ/情報/action_log_probs | テンソル | tf.float64 | ||
ステップ/情報/qpos | テンソル | (6、) | tf.float64 | |
ステップ/情報/qvel | テンソル | (6、) | tf.float64 | |
ステップ/is_first | テンソル | tf.bool | ||
ステップ/is_last | テンソル | tf.bool | ||
ステップ/is_terminal | テンソル | tf.bool | ||
ステップ/観察 | テンソル | (11、) | tf.float32 | |
ステップ/報酬 | テンソル | tf.float32 |
- 例( tfds.as_dataframe ):