- Opis :
RL Unplugged to zestaw wzorców do uczenia się przez wzmacnianie offline. RL Unplugged został zaprojektowany z myślą o następujących kwestiach: aby ułatwić korzystanie, dostarczamy zestawom danych ujednolicone API, które ułatwia praktykowi pracę ze wszystkimi danymi w pakiecie po ustanowieniu ogólnego potoku.
Zestawy danych są zgodne z formatem RLDS, aby reprezentować kroki i epizody.
Zbiór danych DeepMind Lab ma kilka poziomów z trudnego, częściowo obserwowalnego pakietu Deepmind Lab . Zbiór danych DeepMind Lab jest gromadzony poprzez szkolenie rozproszonych R2D2 przez Kapturowski et al., 2018 agentów od podstaw na poszczególnych zadaniach. Zarejestrowaliśmy doświadczenie wszystkich aktorów podczas całego szkolenia kilka razy dla każdego zadania. Szczegóły procesu generowania zbioru danych opisano w Gulcehre i in., 2021 .
Udostępniamy zestawy danych dla pięciu różnych poziomów DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Udostępniamy również zestawy danych migawki dla poziomu seekavoid_arena_01
, które wygenerowaliśmy z przeszkolonej migawki R2D2 z różnymi poziomami epsilonów dla algorytmu epsilon-greedy podczas oceny agenta w środowisku.
Zbiór danych DeepMind Lab jest dość duży. Zalecamy wypróbowanie go, jeśli interesują Cię wielkoskalowe modele RL offline z pamięcią.
Strona główna : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kod źródłowy :
tfds.rl_unplugged.rlu_dmlab_rooms_watermaze.RluDmlabRoomsWatermaze
Wersje :
-
1.0.0
: Pierwsze wydanie. -
1.1.0
: Dodano is_last. -
1.2.0
(domyślnie): BGR -> RGB fix dla obserwacji pikseli.
-
Pobierz rozmiar :
Unknown size
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_odcinka | Napinacz | tf.int64 | ||
odcinek_zwrotu | Napinacz | tf.float32 | ||
kroki | Zbiór danych | |||
kroki/działania | Napinacz | tf.int64 | ||
kroki/rabat | Napinacz | tf.float32 | ||
kroki/jest_pierwszy | Napinacz | tf.bool | ||
kroki/jest_ostatni | Napinacz | tf.bool | ||
kroki/jest_terminal | Napinacz | tf.bool | ||
kroki/obserwacja | FunkcjeDict | |||
kroki/obserwacja/ostatnia_akcja | Napinacz | tf.int64 | ||
kroki/obserwacja/ostatnia_nagroda | Napinacz | tf.float32 | ||
kroki/obserwacja/piksele | Obraz | (72, 96, 3) | tf.uint8 | |
kroki/nagroda | Napinacz | tf.float32 |
Nadzorowane klucze (patrz
as_supervised
doc ):None
Rysunek ( tfds.show_examples ): Nieobsługiwane.
Cytat :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_watermaze/training_0 (konfiguracja domyślna)
Rozmiar zestawu danych :
894.50 GiB
Dzieli :
Rozdzielać | Przykłady |
---|---|
'train' | 67,876 |
- Przykłady ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_1
Rozmiar zestawu danych :
898.74 GiB
Dzieli :
Rozdzielać | Przykłady |
---|---|
'train' | 66,922 |
- Przykłady ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_2
Rozmiar zbioru danych :
825.49 GiB
Dzieli :
Rozdzielać | Przykłady |
---|---|
'train' | 67,081 |
- Przykłady ( tfds.as_dataframe ):