rlu_dmlab_rooms_watermaze

  • Descrizione :

RL Unplugged è una suite di benchmark per l'apprendimento per rinforzo offline. RL Unplugged è progettato attorno alle seguenti considerazioni: per facilitare l'uso, forniamo ai set di dati un'API unificata che rende facile per il professionista lavorare con tutti i dati nella suite una volta stabilita una pipeline generale.

I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi.

Il set di dati DeepMind Lab ha diversi livelli rispetto alla suite Deepmind Lab impegnativa e parzialmente osservabile. Il set di dati di DeepMind Lab viene raccolto addestrando R2D2 distribuito da Kapturowski et al., 2018 agenti da zero su singole attività. Abbiamo registrato l'esperienza di tutti gli attori durante l'intero corso di formazione alcune volte per ogni attività. I dettagli del processo di generazione del set di dati sono descritti in Gulcehre et al., 2021 .

Rilasciamo set di dati per cinque diversi livelli di DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Rilasciamo anche i set di dati snapshot per il livello seekavoid_arena_01 che abbiamo generato da uno snapshot R2D2 addestrato con diversi livelli di epsilon per l'algoritmo epsilon-greedy durante la valutazione dell'agente nell'ambiente.

Il set di dati di DeepMind Lab è abbastanza ampio. Ti consigliamo di provarlo se sei interessato a modelli RL offline su larga scala con memoria.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • Documentazione sulle caratteristiche :
Caratteristica Classe Forma tipo D Descrizione
CaratteristicheDict
episodio_id Tensore tf.int64
episodio_ritorno Tensore tf.float32
passi Set di dati
passi/azione Tensore tf.int64
passi/sconto Tensore tf.float32
passi/è_prima Tensore tf.bool
passi/è_ultimo Tensore tf.bool
passi/è_terminale Tensore tf.bool
passi/osservazione CaratteristicheDict
passi/osservazione/ultima_azione Tensore tf.int64
passi/osservazione/ultima_ricompensa Tensore tf.float32
passi/osservazione/pixel Immagine (72, 96, 3) tf.uint8
passi/ricompensa Tensore tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze/training_0 (configurazione predefinita)

  • Dimensione del set di dati: 894.50 GiB

  • Spaccature :

Diviso Esempi
'train' 67.876

rlu_dmlab_rooms_watermaze/training_1

  • Dimensione del set di dati: 898.74 GiB

  • Spaccature :

Diviso Esempi
'train' 66.922

rlu_dmlab_rooms_watermaze/training_2

  • Dimensione del set di dati: 825.49 GiB

  • Spaccature :

Diviso Esempi
'train' 67.081