rlu_dmlab_explore_object_rewards_few

  • Descriptif :

RL Unplugged est une suite de références pour l'apprentissage par renforcement hors ligne. Le RL Unplugged est conçu autour des considérations suivantes : pour faciliter l'utilisation, nous fournissons les ensembles de données avec une API unifiée qui permet au praticien de travailler facilement avec toutes les données de la suite une fois qu'un pipeline général a été établi.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

L'ensemble de données DeepMind Lab comporte plusieurs niveaux de la suite Deepmind Lab difficile et partiellement observable. L'ensemble de données DeepMind Lab est collecté par la formation distribuée R2D2 par Kapturowski et al., 2018 agents à partir de zéro sur des tâches individuelles. Nous avons enregistré l'expérience de tous les acteurs pendant des cycles de formation complets à quelques reprises pour chaque tâche. Les détails du processus de génération de l'ensemble de données sont décrits dans Gulcehre et al., 2021 .

Nous publions des ensembles de données pour cinq niveaux DeepMind Lab différents : seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Nous publions également les ensembles de données d'instantanés pour le niveau seekavoid_arena_01 que nous avons générés à partir d'un instantané R2D2 formé avec différents niveaux d'epsilons pour l'algorithme epsilon-greedy lors de l'évaluation de l'agent dans l'environnement.

L'ensemble de données DeepMind Lab est assez vaste. Nous vous recommandons de l'essayer si vous êtes intéressé par les modèles RL hors ligne à grande échelle avec mémoire.

Diviser Exemples
'train' 89 144
  • Structure des fonctionnalités :
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
épisode_id Tenseur tf.int64
retour_épisode Tenseur tf.float32
pas Base de données
étapes/actions Tenseur tf.int64
étapes/réduction Tenseur tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation FonctionnalitésDict
étapes/observation/dernière_action Tenseur tf.int64
étapes/observation/dernière_récompense Tenseur tf.float32
pas/observation/pixels Image (72, 96, 3) tf.uint8
pas/récompense Tenseur tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (configuration par défaut)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2