rlu_dmlab_rooms_watermaze

Descrizione :

RL Unplugged è una suite di benchmark per l'apprendimento per rinforzo offline. RL Unplugged è progettato sulla base delle seguenti considerazioni: per facilitare la facilità d'uso, forniamo ai set di dati un'API unificata che rende facile per il professionista lavorare con tutti i dati nella suite una volta stabilita una pipeline generale.

I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi.

Il set di dati DeepMind Lab ha diversi livelli rispetto alla suite Deepmind Lab , impegnativa e parzialmente osservabile. Il set di dati di DeepMind Lab viene raccolto addestrando gli agenti R2D2 distribuiti da Kapturowski et al., 2018 da zero su singole attività. Abbiamo registrato l'esperienza di tutti gli attori durante l'intera formazione alcune volte per ogni attività. I dettagli del processo di generazione del set di dati sono descritti in Gulcehre et al., 2021 .

Rilasciamo set di dati per cinque diversi livelli di DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Rilasciamo anche i set di dati snapshot per il livello seekavoid_arena_01 che abbiamo generato i set di dati da uno snapshot R2D2 addestrato con diversi livelli di epsilon per l'algoritmo epsilon-greedy durante la valutazione dell'agente nell'ambiente.

Il set di dati di DeepMind Lab è piuttosto ampio. Ti consigliamo di provarlo se sei interessato a modelli RL offline su larga scala con memoria.

Pagina iniziale : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Codice sorgente : tfds.rl_unplugged.rlu_dmlab_rooms_watermaze.RluDmlabRoomsWatermaze
Versioni :
- 1.0.0 : Versione iniziale.
- 1.1.0 : Aggiunto is_last.
- 1.2.0 (predefinito): BGR -> Correzione RGB per le osservazioni dei pixel.
Dimensioni del download : Unknown size
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
episodio_id	Tensore		int64
episodio_ritorno	Tensore		galleggiante32
passi	Set di dati
passi/azione	Tensore		int64
passi/sconto	Tensore		galleggiante32
passi/è_primo	Tensore		bool
passi/è_ultimo	Tensore		bool
passi/è_terminale	Tensore		bool
passi/osservazione	CaratteristicheDict
passi/osservazione/ultima_azione	Tensore		int64
passi/osservazione/ultima_ricompensa	Tensore		galleggiante32
passi/osservazione/pixel	Immagine	(72, 96, 3)	uint8
passi/ricompensa	Tensore		galleggiante32

Chiavi supervisionate (Vedi as_supervised doc ): None
Figura ( tfds.show_examples ): non supportato.
Citazione :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze/training_0 (configurazione predefinita)

Dimensione del set di dati: 894.50 GiB
Divisioni :

Diviso	Esempi
`'train'`	67.876

Esempi ( tfds.as_dataframe ):

rlu_dmlab_rooms_watermaze/training_1

Dimensione del set di dati: 898.74 GiB
Divisioni :

Diviso	Esempi
`'train'`	66.922

Esempi ( tfds.as_dataframe ):

rlu_dmlab_rooms_watermaze/training_2

Dimensione del set di dati: 825.49 GiB
Divisioni :

Diviso	Esempi
`'train'`	67.081

Esempi ( tfds.as_dataframe ):

rlu_dmlab_rooms_watermaze Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

rlu_dmlab_rooms_watermaze/training_0 (configurazione predefinita)

rlu_dmlab_rooms_watermaze/training_1

rlu_dmlab_rooms_watermaze/training_2

rlu_dmlab_rooms_watermaze