rlu_dmlab_explore_object_rewards_few

  • توضیحات :

RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged با توجه به ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه داده‌ها را با یک API یکپارچه ارائه می‌کنیم که کار پزشک را با تمام داده‌های مجموعه پس از ایجاد خط لوله عمومی آسان می‌کند.

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.

مجموعه داده آزمایشگاه DeepMind دارای چندین سطح از مجموعه چالش برانگیز و نیمه قابل مشاهده Deepmind Lab است . مجموعه داده های آزمایشگاه DeepMind با آموزش توزیع شده R2D2 توسط Kapturowski و همکاران، عوامل 2018 از ابتدا در وظایف فردی جمع آوری شده است. ما تجربه را در تمام بازیگران در طول دوره های آموزشی چند بار برای هر کار ثبت کردیم. جزئیات فرآیند تولید مجموعه داده در Gulcehre و همکاران، 2021 توضیح داده شده است.

مجموعه داده‌هایی را برای پنج سطح مختلف DeepMind Lab منتشر می‌کنیم: seekavoid_arena_01 ، explore_rewards_few ، explore_rewards_many ، rooms_watermaze ، rooms_select_nonmatching_object . ما همچنین مجموعه داده های عکس فوری را برای سطح seekavoid_arena_01 می کنیم که مجموعه داده ها را از یک عکس فوری R2D2 آموزش دیده با سطوح مختلف اپسیلون برای الگوریتم epsilon-greedy هنگام ارزیابی عامل در محیط ایجاد کردیم.

مجموعه داده DeepMind Lab نسبتاً بزرگ است. توصیه می کنیم اگر به مدل های RL آفلاین در مقیاس بزرگ با حافظه علاقه دارید آن را امتحان کنید.

شکاف مثال ها
'train' 89,144
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور tf.int64
قسمت_بازگشت تانسور tf.float32
مراحل مجموعه داده
مراحل/عمل تانسور tf.int64
مراحل/تخفیف تانسور tf.float32
Steps/is_first تانسور tf.bool
Steps/is_last تانسور tf.bool
Steps/is_terminal تانسور tf.bool
مراحل / مشاهده FeaturesDict
مراحل/مشاهده/آخرین_عمل تانسور tf.int64
مراحل/مشاهده/آخرین_پاداش تانسور tf.float32
مراحل / مشاهده / پیکسل تصویر (72، 96، 3) tf.uint8
قدم ها / پاداش تانسور tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (پیکربندی پیش فرض)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2