rlu_dmlab_explore_object_rewards_few

বর্ণনা :

RL আনপ্লাগড হল অফলাইন রিইনফোর্সমেন্ট শেখার জন্য বেঞ্চমার্কের স্যুট। RL আনপ্লাগড নিম্নলিখিত বিবেচনার ভিত্তিতে ডিজাইন করা হয়েছে: ব্যবহারের সহজতর করার জন্য, আমরা একটি ইউনিফাইড API সহ ডেটাসেটগুলি সরবরাহ করি যা অনুশীলনকারীর পক্ষে একটি সাধারণ পাইপলাইন প্রতিষ্ঠিত হওয়ার পরে স্যুটের সমস্ত ডেটার সাথে কাজ করা সহজ করে তোলে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

ডিপমাইন্ড ল্যাব ডেটাসেটে চ্যালেঞ্জিং, আংশিকভাবে পর্যবেক্ষণযোগ্য ডিপমাইন্ড ল্যাব স্যুট থেকে বেশ কয়েকটি স্তর রয়েছে। ডিপমাইন্ড ল্যাব ডেটাসেট সংগ্রহ করা হয় প্রশিক্ষণ বিতরণ করা R2D2 দ্বারা Kapturowski et al., 2018 এজেন্টদের স্বতন্ত্র টাস্কে শুরু থেকে। আমরা প্রতিটি কাজের জন্য কয়েকবার পুরো প্রশিক্ষণ চলাকালীন সমস্ত অভিনেতাদের অভিজ্ঞতা রেকর্ড করেছি। গুলচেহেরে এট আল।, 2021 -এ ডেটাসেট তৈরির প্রক্রিয়ার বিশদ বিবরণ দেওয়া হয়েছে।

আমরা পাঁচটি ভিন্ন ডিপমাইন্ড ল্যাব স্তরের জন্য ডেটাসেট প্রকাশ করি: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object । আমরা seekavoid_arena_01 স্তরের জন্য স্ন্যাপশট ডেটাসেটগুলিও প্রকাশ করি যা আমরা পরিবেশে এজেন্টের মূল্যায়ন করার সময় এপসিলন-লোভী অ্যালগরিদমের জন্য বিভিন্ন স্তরের এপসিলন সহ একটি প্রশিক্ষিত R2D2 স্ন্যাপশট থেকে ডেটাসেটগুলি তৈরি করেছি৷

ডিপমাইন্ড ল্যাব ডেটাসেট মোটামুটি বড় আকারের। আপনি যদি মেমরি সহ বড় আকারের অফলাইন RL মডেলগুলিতে আগ্রহী হন তবে আমরা আপনাকে এটি চেষ্টা করার পরামর্শ দিই।

হোমপেজ : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
সোর্স কোড : tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
সংস্করণ :
- 1.0.0 : প্রাথমিক প্রকাশ।
- 1.1.0 : যোগ করা হয়েছে_শেষ।
- 1.2.0 (ডিফল্ট): পিক্সেল পর্যবেক্ষণের জন্য BGR -> RGB ফিক্স।
ডাউনলোড আকার : Unknown size
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	৮৯,১৪৪

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
episode_id	টেনসর		int64
পর্ব_প্রত্যাবর্তন	টেনসর		float32
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর		int64
পদক্ষেপ/ছাড়	টেনসর		float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/শেষ_ক্রিয়া	টেনসর		int64
পদক্ষেপ/পর্যবেক্ষণ/শেষ_পুরস্কার	টেনসর		float32
পদক্ষেপ/পর্যবেক্ষণ/পিক্সেল	ছবি	(৭২, ৯৬, ৩)	uint8
পদক্ষেপ/পুরস্কার	টেনসর		float32

তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (ডিফল্ট কনফিগারেশন)

ডেটাসেটের আকার : 847.00 GiB
উদাহরণ ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

ডেটাসেটের আকার : 877.76 GiB
উদাহরণ ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

ডেটাসেটের আকার : 836.43 GiB
উদাহরণ ( tfds.as_dataframe ):