rlu_dmlab_explore_object_rewards_few

  • Beschreibung:

RL Unplugged ist eine Reihe von Benchmarks für das Offline-Verstärkungslernen. Das RL Unplugged basiert auf folgenden Überlegungen: Um die Benutzerfreundlichkeit zu erleichtern, stellen wir den Datensätzen eine einheitliche API zur Verfügung, die es dem Praktiker erleichtert, mit allen Daten in der Suite zu arbeiten, sobald eine allgemeine Pipeline erstellt wurde.

DeepMind Lab - Datensatz hat mehrere Ebenen von der herausfordernden, teilweise beobachtbar Deepmind Lab - Suite . DeepMind Lab - Datensatz durch die Ausbildung verteilt R2D2 von gesammelt Kapturowski et al., 2018 Mittel von Grund auf zu den einzelnen Aufgaben. Wir haben die Erfahrung aller Akteure während der gesamten Trainingsläufe für jede Aufgabe einige Male aufgezeichnet. Die Details des Datensatzes Erzeugungsprozess ist beschrieben in Gulcehre et al., 2021 .

Wir veröffentlichen Datensätze für fünf verschiedene DeepMind Lab Ebenen: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Wir veröffentlichen auch die Snapshot - Datensätze für seekavoid_arena_01 Ebene , dass wir die Datensätze von einer geschulten R2D2 Snapshot mit verschiedenen Ebenen der Epsilons für den Epsilon-Greedy - Algorithmus erzeugt wird, wenn in der Umgebung den Agenten zu bewerten.

Der Datensatz von DeepMind Lab ist ziemlich umfangreich. Wir empfehlen Ihnen, es auszuprobieren, wenn Sie an großformatigen Offline-RL-Modellen mit Speicher interessiert sind.

Teilt Beispiele
'train' 89.144
  • Eigenschaften:
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (Standardkonfiguration)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2