rlu_dmlab_rooms_watermaze

  • 説明

RL Unpluggedは、オフライン強化学習のための一連のベンチマークです。 RL Unpluggedは、次の考慮事項に基づいて設計されています。使いやすさを促進するために、一般的なパイプラインが確立された後、開業医がスイート内のすべてのデータを簡単に操作できるようにする統合APIをデータセットに提供します。

データセットはRLDS形式に従って、ステップとエピソードを表します。

DeepMind Labデータセットには、挑戦的で部分的に観察可能なDeepmindLabスイートのいくつかのレベルがあります。 DeepMind Labデータセットは、 Kapturowski et al。、2018エージェントによって分散R2D2を個々のタスクでゼロからトレーニングすることによって収集されます。トレーニング全体の実行中に、すべてのタスクについて数回、すべてのアクターの経験を記録しました。データセット生成プロセスの詳細は、 Gulcehre et al。、2021に記載されています。

5つの異なるDeepMindラボレベルのデータセットをリリースします: seekavoid_arena_01explore_rewards_fewexplore_rewards_manyrooms_watermazerooms_select_nonmatching_object 。また、環境内のエージェントを評価するときに、イプシロン欲張りアルゴリズムのさまざまなレベルのイプシロンを使用してトレーニング済みのR2D2スナップショットからデータセットを生成したseekavoid_arena_01レベルのスナップショットデータセットをリリースします。

DeepMindLabデータセットはかなり大規模です。メモリを備えた大規模なオフラインRLモデルに関心がある場合は、試してみることをお勧めします。

  • ホームページhttps ://github.com/deepmind/deepmind-research/tree/master/rl_unplugged

  • ソースコードtfds.rl_unplugged.rlu_dmlab_rooms_watermaze.RluDmlabRoomsWatermaze

  • バージョン

    • 1.0.0 :初期リリース。
    • 1.1.0 :is_lastを追加しました。
    • 1.2.0 (デフォルト):ピクセル観測のBGR->RGB修正。
  • ダウンロードサイズUnknown size

  • 自動キャッシュドキュメント):いいえ

  • 機能構造

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • 機能ドキュメント
特徴クラスDtype説明
FeaturesDict
Episode_idテンソルtf.int64
Episode_returnテンソルtf.float32
手順データセット
ステップ/アクションテンソルtf.int64
ステップ/割引テンソルtf.float32
ステップ/is_firstテンソルtf.bool
ステップ/is_lastテンソルtf.bool
ステップ/is_terminalテンソルtf.bool
ステップ/観察FeaturesDict
ステップ/観察/last_actionテンソルtf.int64
ステップ/観察/last_rewardテンソルtf.float32
ステップ/観察/ピクセル画像(72、96、3) tf.uint8
ステップ/報酬テンソルtf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze / training_0(デフォルトの構成)

  • データセットサイズ894.50 GiB

  • 分割

スプリット
'train' 67,876

rlu_dmlab_rooms_watermaze / training_1

  • データセットサイズ898.74 GiB

  • 分割

スプリット
'train' 66,922

rlu_dmlab_rooms_watermaze / training_2

  • データセットサイズ825.49 GiB

  • 分割

スプリット
'train' 67,081