rlu_locomotion

  • תיאור :

RL Unplugged היא חבילת אמות מידה ללימוד חיזוק לא מקוון. ה-RL Unplugged מתוכנן סביב השיקולים הבאים: כדי להקל על השימוש, אנו מספקים למערכי נתונים עם API מאוחד אשר מקל על המתרגל לעבוד עם כל הנתונים בחבילה לאחר הקמת צינור כללי.

מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.

משימות אלו מורכבות ממשימות תנועת המסדרון הכוללות את ה-CMU Humanoid, עבורן מאמצים קודמים השתמשו בנתוני לכידת תנועה Merel et al., 2019a , Merel et al., 2019b או אימון מאפס Song et al., 2020 . בנוסף, מאגר DM Locomotion מכיל סט משימות המותאמות למכרסם וירטואלי Merel et al., 2020 . אנו מדגישים כי משימות DM Locomotion מציגות את השילוב של שליטה רציפה מאתגרת ב-DoF גבוהה יחד עם תפיסה מתצפיות אגוצנטריות עשירות. לפרטים על אופן יצירת מערך הנתונים, עיין במאמר.

אנו ממליצים לך לנסות שיטות RL לא מקוונות במערך הנתונים של DeepMind Locomotion, אם אתה מעוניין במערך נתונים RL לא מקוון מאתגר מאוד עם מרחב פעולה רציף.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (תצורת ברירת המחדל)

  • גודל מערך נתונים : 1.88 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 4,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (56,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/גובה_גוף מוֹתֵחַ (1,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/אנד_effectors_pos מוֹתֵחַ (12,) לצוף32
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (56,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (56,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64

rlu_locomotion/humanoid_gaps

  • גודל מערך נתונים : 4.57 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 8,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (56,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/גובה_גוף מוֹתֵחַ (1,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/אנד_effectors_pos מוֹתֵחַ (12,) לצוף32
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (56,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (56,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64

rlu_locomotion/humanoid_walls

  • גודל מערך נתונים : 2.36 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 4,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (56,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/גובה_גוף מוֹתֵחַ (1,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/אנד_effectors_pos מוֹתֵחַ (12,) לצוף32
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (56,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (56,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64

rlu_locomotion/rodent_bowl_escape

  • גודל ערכת נתונים: 16.46 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 2,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (38,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/תוספות_pos מוֹתֵחַ (15,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מגע מוֹתֵחַ (4,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/גידים_pos מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/גידים_וול מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64

rlu_locomotion/מכרסמים_פערים

  • גודל מערך נתונים : 8.90 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 2,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (38,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/תוספות_pos מוֹתֵחַ (15,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מגע מוֹתֵחַ (4,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/גידים_pos מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/גידים_וול מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64

rlu_locomotion/מכרסמים_מבוכי

  • גודל מערך נתונים : 20.71 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 2,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (38,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/תוספות_pos מוֹתֵחַ (15,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מגע מוֹתֵחַ (4,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/גידים_pos מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/גידים_וול מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64

rlu_locomotion/rodent_two_touch

  • גודל מערך נתונים : 23.05 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 2,000
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ (38,) לצוף32
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/הליכון FeaturesDict
צעדים/תצפית/הליכון/תוספות_pos מוֹתֵחַ (15,) לצוף32
צעדים/תצפית/הליכון/מצלמה_אגוצנטרית תמונה (64, 64, 3) uint8
צעדים/תצפית/הליכון/מפרקים_פוזי מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מפרקים_ול מוֹתֵחַ (30,) לצוף32
צעדים/תצפית/הליכון/מד תאוצה_חיישנים מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_גיירו מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מגע מוֹתֵחַ (4,) לצוף32
צעדים/תצפית/הליכון/חיישנים_מהירות מוֹתֵחַ (3,) לצוף32
צעדים/תצפית/הליכון/גידים_pos מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/גידים_וול מוֹתֵחַ (8,) לצוף32
צעדים/תצפית/הליכון/עולם_זאקסיס מוֹתֵחַ (3,) לצוף32
צעדים/פרס מוֹתֵחַ לצוף32
חותמת זמן מוֹתֵחַ int64