- Beschreibung:
RL Unplugged ist eine Reihe von Benchmarks für das Offline-Verstärkungslernen. Das RL Unplugged basiert auf folgenden Überlegungen: Um die Benutzerfreundlichkeit zu erleichtern, stellen wir den Datensätzen eine einheitliche API zur Verfügung, die es dem Praktiker erleichtert, mit allen Daten in der Suite zu arbeiten, sobald eine allgemeine Pipeline erstellt wurde.
DeepMind Lab - Datensatz hat mehrere Ebenen von der herausfordernden, teilweise beobachtbar Deepmind Lab - Suite . DeepMind Lab - Datensatz durch die Ausbildung verteilt R2D2 von gesammelt Kapturowski et al., 2018 Mittel von Grund auf zu den einzelnen Aufgaben. Wir haben die Erfahrung aller Akteure während der gesamten Trainingsläufe für jede Aufgabe einige Male aufgezeichnet. Die Details des Datensatzes Erzeugungsprozess ist beschrieben in Gulcehre et al., 2021 .
Wir veröffentlichen Datensätze für fünf verschiedene DeepMind Lab Ebenen: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Wir veröffentlichen auch die Snapshot - Datensätze für seekavoid_arena_01
Ebene , dass wir die Datensätze von einer geschulten R2D2 Snapshot mit verschiedenen Ebenen der Epsilons für den Epsilon-Greedy - Algorithmus erzeugt wird, wenn in der Umgebung den Agenten zu bewerten.
Der Datensatz von DeepMind Lab ist ziemlich umfangreich. Wir empfehlen Ihnen, es auszuprobieren, wenn Sie an großformatigen Offline-RL-Modellen mit Speicher interessiert sind.
Homepage: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Quellcode:
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versionen:
-
1.0.0
: Erste Veröffentlichung. -
1.1.0
(Standard): hinzugefügt is_last.
-
Downloadgröße:
Unknown size
Auto-cached ( Dokumentation ): Nein
Splits:
Teilt | Beispiele |
---|---|
'train' | 89.144 |
- Eigenschaften:
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
Betreute Tasten (Siehe
as_supervised
doc ):None
Figur ( tfds.show_examples ): nicht unterstützt.
Zitat:
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (Standardkonfiguration)
Dataset Größe:
1020.09 GiB
Beispiele ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
Dataset Größe:
1.04 TiB
Beispiele ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
Dataset Größe:
1015.51 GiB
Beispiele ( tfds.as_dataframe ):