rlu_dmlab_explore_object_rewards_few

  • Opis :

RL Unplugged to zestaw wzorców do uczenia się przez wzmacnianie offline. RL Unplugged został zaprojektowany z myślą o następujących kwestiach: aby ułatwić korzystanie, dostarczamy zestawom danych ujednolicone API, które ułatwia praktykowi pracę ze wszystkimi danymi w pakiecie po ustanowieniu ogólnego potoku.

Zestawy danych są zgodne z formatem RLDS, aby reprezentować kroki i epizody.

Zbiór danych DeepMind Lab ma kilka poziomów z trudnego, częściowo obserwowalnego pakietu Deepmind Lab . Zbiór danych DeepMind Lab jest gromadzony poprzez szkolenie rozproszonych R2D2 przez Kapturowski et al., 2018 agentów od podstaw na poszczególnych zadaniach. Zarejestrowaliśmy doświadczenie wszystkich aktorów podczas całego szkolenia kilka razy dla każdego zadania. Szczegóły procesu generowania zbioru danych opisano w Gulcehre i in., 2021 .

Udostępniamy zestawy danych dla pięciu różnych poziomów DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Udostępniamy również zestawy danych migawki dla poziomu seekavoid_arena_01 , które wygenerowaliśmy z przeszkolonej migawki R2D2 z różnymi poziomami epsilonów dla algorytmu epsilon-greedy podczas oceny agenta w środowisku.

Zbiór danych DeepMind Lab jest dość duży. Zalecamy wypróbowanie go, jeśli interesują Cię wielkoskalowe modele RL offline z pamięcią.

Rozdzielać Przykłady
'train' 89,144
  • Struktura funkcji :
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_odcinka Napinacz tf.int64
odcinek_zwrotu Napinacz tf.float32
kroki Zbiór danych
kroki/działania Napinacz tf.int64
kroki/rabat Napinacz tf.float32
kroki/jest_pierwszy Napinacz tf.bool
kroki/jest_ostatni Napinacz tf.bool
kroki/jest_terminal Napinacz tf.bool
kroki/obserwacja FunkcjeDict
kroki/obserwacja/ostatnia_akcja Napinacz tf.int64
kroki/obserwacja/ostatnia_nagroda Napinacz tf.float32
kroki/obserwacja/piksele Obraz (72, 96, 3) tf.uint8
kroki/nagroda Napinacz tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (konfiguracja domyślna)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2