rlu_dmlab_explore_object_rewards_few

  • الوصف :

RL Unplugged عبارة عن مجموعة من المعايير للتعلم المعزز في وضع عدم الاتصال. تم تصميم RL Unplugged حول الاعتبارات التالية: لتسهيل الاستخدام ، نوفر مجموعات البيانات بواجهة برمجة تطبيقات موحدة تسهل على الممارس العمل مع جميع البيانات الموجودة في المجموعة بمجرد إنشاء خط أنابيب عام.

تتبع مجموعات البيانات تنسيق RLDS لتمثيل الخطوات والحلقات.

تحتوي مجموعة بيانات DeepMind Lab على عدة مستويات من مجموعة Deepmind Lab الصعبة والتي يمكن ملاحظتها جزئيًا. يتم جمع مجموعة بيانات DeepMind Lab عن طريق التدريب الموزع على R2D2 بواسطة Kapturowski et al. ، 2018 وكلاء من الصفر في المهام الفردية. لقد سجلنا التجربة عبر جميع الممثلين أثناء تشغيل التدريب بالكامل عدة مرات لكل مهمة. تم وصف تفاصيل عملية إنشاء مجموعة البيانات في Gulcehre et al. ، 2021 .

قمنا بإصدار مجموعات بيانات لخمسة مستويات مختلفة من مختبر DeepMind: seekavoid_arena_01 ، explore_rewards_few ، explore_rewards_many ، rooms_watermaze ، rooms_select_nonmatching_object . قمنا أيضًا بإصدار مجموعات بيانات اللقطة لمستوى seekavoid_arena_01 الذي أنشأنا مجموعات البيانات من لقطة R2D2 مدربة بمستويات مختلفة من إبسيلون لخوارزمية إبسيلون-الجشع عند تقييم العامل في البيئة.

مجموعة بيانات DeepMind Lab واسعة النطاق إلى حد ما. نوصيك بتجربتها إذا كنت مهتمًا بنماذج RL غير المتصلة بالإنترنت ذات الذاكرة.

انشق، مزق أمثلة
'train' 89144
  • هيكل الميزة :
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_حلقة موتر tf.int64
الحلقة_العودة موتر tf.float32
خطوات مجموعة البيانات
خطوات / عمل موتر tf.int64
خطوات / خصم موتر tf.float32
الخطوات / is_first موتر tf.bool
الخطوات / is_last موتر tf.bool
الخطوات / is_terminal موتر tf.bool
الخطوات / الملاحظة الميزات
الخطوات / الملاحظة / الإجراء الأخير موتر tf.int64
الخطوات / الملاحظة / المكافأة الأخيرة موتر tf.float32
خطوات / ملاحظة / بكسل صورة (72 ، 96 ، 3) tf.uint8
خطوات / مكافأة موتر tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few / training_0 (التكوين الافتراضي)

  • حجم مجموعة البيانات : 847.00 GiB

  • أمثلة ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few / training_1

  • حجم مجموعة البيانات : 877.76 GiB

  • أمثلة ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few / training_2

  • حجم مجموعة البيانات : 836.43 GiB

  • أمثلة ( tfds.as_dataframe ):