- תיאור :
RL Unplugged היא חבילת אמות מידה ללימוד חיזוק לא מקוון. ה-RL Unplugged מתוכנן סביב השיקולים הבאים: כדי להקל על השימוש, אנו מספקים למערכי נתונים עם API מאוחד אשר מקל על המתרגל לעבוד עם כל הנתונים בחבילה לאחר הקמת צינור כללי.
מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.
למערך הנתונים של DeepMind Lab יש כמה רמות מחבילת Deepmind Lab המאתגרת, הניתנת לצפייה חלקית. מערך הנתונים של DeepMind Lab נאסף על ידי הכשרה המופצת R2D2 על ידי סוכנים Kapturowski et al., 2018 מאפס במשימות בודדות. הקלטנו את החוויה של כל השחקנים במהלך ריצות אימון שלמות כמה פעמים עבור כל משימה. הפרטים של תהליך יצירת הנתונים מתוארים ב- Gulcehre et al., 2021 .
אנו משחררים מערכי נתונים עבור חמש רמות שונות של DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. אנו גם משחררים את מערכי הנתונים של תמונת המצב לרמת seekavoid_arena_01
שיצרנו את מערכי הנתונים מתמונת מצב R2D2 מאומנת עם רמות שונות של אפסילון עבור האלגוריתם החמדני של אפסילון בעת הערכת הסוכן בסביבה.
מערך הנתונים של DeepMind Lab הוא בקנה מידה גדול למדי. אנו ממליצים לך לנסות את זה אם אתה מעוניין בדגמי RL לא מקוונים בקנה מידה גדול עם זיכרון.
דף הבית : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
קוד מקור :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
גרסאות :
-
1.0.0
: שחרור ראשוני. -
1.1.0
: נוסף is_last. -
1.2.0
(ברירת מחדל): BGR -> תיקון RGB לתצפיות בפיקסלים.
-
גודל הורדה :
Unknown size
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
פרק_מזהה | מוֹתֵחַ | int64 | ||
episode_return | מוֹתֵחַ | לצוף32 | ||
צעדים | מערך נתונים | |||
צעדים/פעולה | מוֹתֵחַ | int64 | ||
צעדים/הנחה | מוֹתֵחַ | לצוף32 | ||
צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
steps/is_terminal | מוֹתֵחַ | bool | ||
צעדים/תצפית | FeaturesDict | |||
צעדים/תצפית/פעולה_אחרונה | מוֹתֵחַ | int64 | ||
צעדים/תצפית/תגמול_אחרון | מוֹתֵחַ | לצוף32 | ||
צעדים/תצפית/פיקסלים | תמונה | (72, 96, 3) | uint8 | |
צעדים/פרס | מוֹתֵחַ | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_many/training_0 (תצורת ברירת המחדל)
גודל מערך נתונים :
1.51 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 111,370 |
- דוגמאות ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_1
גודל מערך נתונים :
1.44 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 111,367 |
- דוגמאות ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_2
גודל מערך נתונים :
1.48 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 111,367 |
- דוגמאות ( tfds.as_dataframe ):