rlu_control_suite

  • الوصف :

RL Unplugged عبارة عن مجموعة من المعايير للتعلم المعزز في وضع عدم الاتصال. تم تصميم RL Unplugged حول الاعتبارات التالية: لتسهيل الاستخدام ، نوفر مجموعات البيانات بواجهة برمجة تطبيقات موحدة تسهل على الممارس العمل مع جميع البيانات الموجودة في المجموعة بمجرد إنشاء خط أنابيب عام.

تتبع مجموعات البيانات تنسيق RLDS لتمثيل الخطوات والحلقات.

DeepMind Control Suite Tassa et al. ، 2018 عبارة عن مجموعة من مهام التحكم التي تم تنفيذها في MuJoCo Todorov et al. ، 2012 . نحن نعتبر مجموعة فرعية من المهام المتوفرة في المجموعة والتي تغطي مجموعة واسعة من الصعوبات.

يتم إنشاء معظم مجموعات البيانات في هذا المجال باستخدام D4PG. بالنسبة للبيئات ، أدخل كرة Manipulator وربط إدراج Manipulator ، نستخدم V-MPO Song et al. ، 2020 لتوليد البيانات نظرًا لأن D4PG غير قادر على حل هذه المهام. أصدرنا مجموعات بيانات لـ 9 مهام لمجموعة التحكم. للحصول على تفاصيل حول كيفية إنشاء مجموعة البيانات ، يرجى الرجوع إلى الورقة.

برنامج DeepMind Control Suite عبارة عن معيار RL للحركة المستمرة التقليدية. على وجه الخصوص ، نوصيك باختبار نهجك في DeepMind Control Suite إذا كنت مهتمًا بالمقارنة مع طرق RL الأخرى غير المتصلة بالإنترنت.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite / cartpole_swingup (التكوين الافتراضي)

  • حجم مجموعة البيانات : 2.12 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 40
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (1 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
الخطوات / الملاحظة / الموقف موتر (3 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (2 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / cheetah_run

  • حجم مجموعة البيانات : 36.58 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 300
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (6 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
الخطوات / الملاحظة / الموقف موتر (8 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (9 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / finger_turn_hard

  • حجم مجموعة البيانات : 47.61 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 500
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (2 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
الخطوات / الملاحظة / dist_to_target موتر (1 ،) تعويم 32
الخطوات / الملاحظة / الموقف موتر (4 ،) تعويم 32
الخطوات / الملاحظة / الهدف_وضعية موتر (2 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (3 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / fish_swim

  • حجم مجموعة البيانات : 32.81 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 200
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (5 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
الخطوات / الملاحظة / الزوايا المشتركة موتر (7 ،) تعويم 32
الخطوات / الملاحظة / الهدف موتر (3 ،) تعويم 32
خطوات / مراقبة / تستقيم موتر (1 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (13 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / humanoid_run

  • حجم مجموعة البيانات : 1.21 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 3000
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (21 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
الخطوات / الملاحظة / com_velocity موتر (3 ،) تعويم 32
الخطوات / الملاحظة / الأطراف موتر (12 ،) تعويم 32
الخطوات / الملاحظة / ارتفاع الرأس موتر (1 ،) تعويم 32
الخطوات / الملاحظة / الزوايا المشتركة موتر (21 ،) تعويم 32
خطوات / ملاحظة / جذع_ عمودي موتر (3 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (27 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / manipulator_insert_ball

  • حجم مجموعة البيانات : 385.41 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1500
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (5 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
خطوات / مراقبة / arm_pos موتر (16 ،) تعويم 32
الخطوات / الملاحظة / arm_vel موتر (8 ،) تعويم 32
خطوات / مراقبة / hand_pos موتر (4 ،) تعويم 32
الخطوات / الملاحظة / object_pos موتر (4 ،) تعويم 32
الخطوات / الملاحظة / object_vel موتر (3 ،) تعويم 32
الخطوات / الملاحظة / target_pos موتر (4 ،) تعويم 32
خطوات / الملاحظة / اللمس موتر (5 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / manipulator_insert_peg

  • حجم مجموعة البيانات : 385.73 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1500
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (5 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
خطوات / مراقبة / arm_pos موتر (16 ،) تعويم 32
الخطوات / الملاحظة / arm_vel موتر (8 ،) تعويم 32
خطوات / مراقبة / hand_pos موتر (4 ،) تعويم 32
الخطوات / الملاحظة / object_pos موتر (4 ،) تعويم 32
الخطوات / الملاحظة / object_vel موتر (3 ،) تعويم 32
الخطوات / الملاحظة / target_pos موتر (4 ،) تعويم 32
خطوات / الملاحظة / اللمس موتر (5 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / walker_stand

  • حجم مجموعة البيانات : 31.78 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 200
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (6 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
خطوات / مراقبة / ارتفاع موتر (1 ،) تعويم 32
خطوات / ملاحظة / توجهات موتر (14 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (9 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64

rlu_control_suite / walker_walk

  • حجم مجموعة البيانات : 31.78 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 200
  • هيكل الميزة :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر int64
خطوات مجموعة البيانات
خطوات / عمل موتر (6 ،) تعويم 32
خطوات / خصم موتر تعويم 32
الخطوات / is_first موتر منطقي
الخطوات / is_last موتر منطقي
الخطوات / is_terminal موتر منطقي
خطوات / ملاحظة الميزات
خطوات / مراقبة / ارتفاع موتر (1 ،) تعويم 32
خطوات / ملاحظة / توجهات موتر (14 ،) تعويم 32
الخطوات / الملاحظة / السرعة موتر (9 ،) تعويم 32
خطوات / مكافأة موتر تعويم 32
الطابع الزمني موتر int64