rlu_dmlab_explore_object_rewards_few

  • 説明:

RL Unplugged は、オフライン強化学習のベンチマーク スイートです。 RL Unplugged は、次の考慮事項に基づいて設計されています。使いやすさを促進するために、一般的なパイプラインが確立されると、実践者がスイート内のすべてのデータを簡単に操作できるようにする統合 API をデータセットに提供します。

データセットはRLDS 形式に従って、ステップとエピソードを表します。

DeepMind Lab データセットには、挑戦的で部分的に観察可能なDeepmind Lab suiteからのいくつかのレベルがあります。 DeepMind Lab のデータセットは、 Kapturowski et al., 2018エージェントによって分散された R2D2 を個々のタスクでゼロからトレーニングすることによって収集されます。タスクごとに数回のトレーニング実行中に、すべてのアクターのエクスペリエンスを記録しました。データセット生成プロセスの詳細は、 Gulcehre et al., 2021で説明されています。

seekavoid_arena_01explore_rewards_fewexplore_rewards_manyrooms_watermazerooms_select_nonmatching_objectの 5 つの異なる DeepMind Lab レベルのデータセットをリリースします。環境でエージェントを評価するときに、イプシロン貪欲アルゴリズムのさまざまなレベルのイプシロンを使用して、トレーニング済みの R2D2 スナップショットからデータセットを生成した、 seekavoid_arena_01レベルのスナップショット データセットもリリースします。

DeepMind Lab のデータセットはかなり大規模です。メモリを使用した大規模なオフライン RL モデルに興味がある場合は、試してみることをお勧めします。

スプリット
'train' 89,144
  • 機能構造:
FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
episode_idテンソルint64
episode_returnテンソルfloat32
ステップデータセット
ステップ/アクションテンソルint64
ステップ/割引テンソルfloat32
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察特徴辞書
ステップ/観察/last_actionテンソルint64
ステップ/観察/last_rewardテンソルfloat32
ステップ/観察/ピクセル画像(72、96、3) uint8
ステップ/報酬テンソルfloat32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (デフォルト設定)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2