- Descrizione :
RL Unplugged è una suite di benchmark per l'apprendimento per rinforzo offline. RL Unplugged è progettato attorno alle seguenti considerazioni: per facilitare l'uso, forniamo ai set di dati un'API unificata che rende facile per il professionista lavorare con tutti i dati nella suite una volta stabilita una pipeline generale.
I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi.
Il set di dati DeepMind Lab ha diversi livelli rispetto alla suite Deepmind Lab impegnativa e parzialmente osservabile. Il set di dati di DeepMind Lab viene raccolto addestrando R2D2 distribuito da Kapturowski et al., 2018 agenti da zero su singole attività. Abbiamo registrato l'esperienza di tutti gli attori durante l'intero corso di formazione alcune volte per ogni attività. I dettagli del processo di generazione del set di dati sono descritti in Gulcehre et al., 2021 .
Rilasciamo set di dati per cinque diversi livelli di DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Rilasciamo anche i set di dati snapshot per il livello seekavoid_arena_01
che abbiamo generato da uno snapshot R2D2 addestrato con diversi livelli di epsilon per l'algoritmo epsilon-greedy durante la valutazione dell'agente nell'ambiente.
Il set di dati di DeepMind Lab è abbastanza ampio. Ti consigliamo di provarlo se sei interessato a modelli RL offline su larga scala con memoria.
Homepage : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Codice sorgente :
tfds.rl_unplugged.rlu_dmlab_rooms_watermaze.RluDmlabRoomsWatermaze
Versioni :
-
1.0.0
: versione iniziale. -
1.1.0
: aggiunto is_last. -
1.2.0
(predefinito): BGR -> correzione RGB per le osservazioni dei pixel.
-
Dimensione download :
Unknown size
Memorizzazione automatica nella cache ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | tf.int64 | ||
episodio_ritorno | Tensore | tf.float32 | ||
passi | Set di dati | |||
passi/azione | Tensore | tf.int64 | ||
passi/sconto | Tensore | tf.float32 | ||
passi/è_prima | Tensore | tf.bool | ||
passi/è_ultimo | Tensore | tf.bool | ||
passi/è_terminale | Tensore | tf.bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/ultima_azione | Tensore | tf.int64 | ||
passi/osservazione/ultima_ricompensa | Tensore | tf.float32 | ||
passi/osservazione/pixel | Immagine | (72, 96, 3) | tf.uint8 | |
passi/ricompensa | Tensore | tf.float32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_watermaze/training_0 (configurazione predefinita)
Dimensione del set di dati:
894.50 GiB
Spaccature :
Diviso | Esempi |
---|---|
'train' | 67.876 |
- Esempi ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_1
Dimensione del set di dati:
898.74 GiB
Spaccature :
Diviso | Esempi |
---|---|
'train' | 66.922 |
- Esempi ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_2
Dimensione del set di dati:
825.49 GiB
Spaccature :
Diviso | Esempi |
---|---|
'train' | 67.081 |
- Esempi ( tfds.as_dataframe ):