rlu_dmlab_explore_object_rewards_few

توضیحات :

RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه داده‌ها را با یک API یکپارچه ارائه می‌کنیم که کار با تمام داده‌های مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان می‌کند.

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.

مجموعه داده DeepMind Lab دارای چندین سطح از مجموعه چالش برانگیز و نیمه قابل مشاهده Deepmind Lab است . مجموعه داده های آزمایشگاه DeepMind با آموزش توزیع شده R2D2 توسط Kapturowski و همکاران، عوامل 2018 از ابتدا در وظایف فردی جمع آوری شده است. ما تجربه را در تمام بازیگران در طول دوره های آموزشی چند بار برای هر کار ثبت کردیم. جزئیات فرآیند تولید مجموعه داده در Gulcehre و همکاران، 2021 توضیح داده شده است.

مجموعه داده‌هایی را برای پنج سطح مختلف DeepMind Lab منتشر می‌کنیم: seekavoid_arena_01 ، explore_rewards_few ، explore_rewards_many ، rooms_watermaze ، rooms_select_nonmatching_object . ما همچنین مجموعه داده‌های عکس فوری را برای سطح seekavoid_arena_01 می‌کنیم که مجموعه داده‌ها را از یک عکس فوری R2D2 با سطوح مختلف اپسیلون برای الگوریتم epsilon-greedy هنگام ارزیابی عامل در محیط تولید کردیم.

مجموعه داده DeepMind Lab نسبتاً بزرگ است. توصیه می کنیم اگر به مدل های RL آفلاین در مقیاس بزرگ با حافظه علاقه دارید آن را امتحان کنید.

صفحه اصلی : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
کد منبع : tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
نسخه ها :
- 1.0.0 : انتشار اولیه.
- 1.1.0 : is_last اضافه شد.
- 1.2.0 (پیش‌فرض): BGR -> RGB اصلاح برای مشاهدات پیکسل.
اندازه دانلود : Unknown size
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	89,144

ساختار ویژگی :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
قسمت_id	تانسور		int64
قسمت_بازگشت	تانسور		float32
مراحل	مجموعه داده
مراحل/عمل	تانسور		int64
مراحل/تخفیف	تانسور		float32
Steps/is_first	تانسور		بوول
Steps/is_last	تانسور		بوول
Steps/is_terminal	تانسور		بوول
مراحل / مشاهده	FeaturesDict
مراحل/مشاهده/آخرین_عمل	تانسور		int64
مراحل/مشاهده/آخرین_پاداش	تانسور		float32
مراحل / مشاهده / پیکسل	تصویر	(72، 96، 3)	uint8
مراحل/پاداش	تانسور		float32

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (پیکربندی پیش فرض)

حجم مجموعه داده : 847.00 GiB
مثال‌ها ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

حجم مجموعه داده : 877.76 GiB
مثال‌ها ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

حجم مجموعه داده : 836.43 GiB
مثال‌ها ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

rlu_dmlab_explore_object_rewards_few/training_0 (پیکربندی پیش فرض)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2

rlu_dmlab_explore_object_rewards_few