rlu_dmlab_explore_object_rewards_few

説明:

RL Unplugged は、オフライン強化学習のベンチマークスイートです。 RL Unplugged は、次の考慮事項に基づいて設計されています。使いやすさを促進するために、一般的なパイプラインが確立されると、実践者がスイート内のすべてのデータを簡単に操作できるようにする統合 API をデータセットに提供します。

データセットはRLDS 形式に従って、ステップとエピソードを表します。

DeepMind Lab データセットには、挑戦的で部分的に観察可能なDeepmind Lab suiteからのいくつかのレベルがあります。 DeepMind Lab のデータセットは、 Kapturowski et al., 2018エージェントによって分散された R2D2 を個々のタスクでゼロからトレーニングすることによって収集されます。タスクごとに数回のトレーニング実行中に、すべてのアクターのエクスペリエンスを記録しました。データセット生成プロセスの詳細は、 Gulcehre et al., 2021で説明されています。

seekavoid_arena_01 、 explore_rewards_few 、 explore_rewards_many 、 rooms_watermaze 、 rooms_select_nonmatching_objectの 5 つの異なる DeepMind Lab レベルのデータセットをリリースします。環境でエージェントを評価するときに、イプシロン貪欲アルゴリズムのさまざまなレベルのイプシロンを使用して、トレーニング済みの R2D2 スナップショットからデータセットを生成した、 seekavoid_arena_01レベルのスナップショットデータセットもリリースします。

DeepMind Lab のデータセットはかなり大規模です。メモリを使用した大規模なオフライン RL モデルに興味がある場合は、試してみることをお勧めします。

ホームページ: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
ソースコード: tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
バージョン:
- 1.0.0 : 初期リリース。
- 1.1.0 : is_last を追加しました。
- 1.2.0 (デフォルト): BGR -> ピクセル観測の RGB 修正。
ダウンロードサイズ: サイズUnknown size
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'train'`	89,144

機能構造:

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
episode_return	テンソル		float32
ステップ	データセット
ステップ/アクション	テンソル		int64
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
ステップ/観察/last_action	テンソル		int64
ステップ/観察/last_reward	テンソル		float32
ステップ/観察/ピクセル	画像	(72、96、3)	uint8
ステップ/報酬	テンソル		float32

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (デフォルト設定)

データセットサイズ: 847.00 GiB
例( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

データセットサイズ: 877.76 GiB
例( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

データセットサイズ: 836.43 GiB
例( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

rlu_dmlab_explore_object_rewards_few/training_0 (デフォルト設定)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2

rlu_dmlab_explore_object_rewards_few