- توضیحات :
RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه دادهها را با یک API یکپارچه ارائه میکنیم که کار با تمام دادههای مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان میکند.
مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.
DeepMind Control Suite Tassa et al., 2018 مجموعه ای از وظایف کنترلی است که در MuJoCo Todorov و همکاران، 2012 پیاده سازی شده است. ما زیرمجموعه ای از وظایف ارائه شده در مجموعه را در نظر می گیریم که طیف وسیعی از مشکلات را پوشش می دهد.
بیشتر مجموعه داده ها در این دامنه با استفاده از D4PG تولید می شوند. برای محیطهای Manipulator insert ball و Manipulator insert peg، ما از V-MPO Song و همکاران، 2020 برای تولید دادهها استفاده میکنیم، زیرا D4PG قادر به حل این وظایف نیست. ما مجموعه دادهها را برای 9 کار مجموعه کنترل منتشر میکنیم. برای جزئیات بیشتر در مورد نحوه تولید مجموعه داده، لطفاً به مقاله مراجعه کنید.
DeepMind Control Suite یک معیار سنتی کنش پیوسته RL است. به طور خاص، توصیه میکنیم اگر به مقایسه با سایر روشهای آفلاین آفلاین علاقه دارید، رویکرد خود را در DeepMind Control Suite آزمایش کنید.
صفحه اصلی : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
کد منبع :
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup (پیکربندی پیشفرض)
حجم مجموعه داده :
2.12 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 40 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (1،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
مراحل / مشاهده / موقعیت | تانسور | (3،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (2،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
حجم مجموعه داده :
36.58 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 300 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (6،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
مراحل / مشاهده / موقعیت | تانسور | (8،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (9،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
حجم مجموعه داده :
47.61 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 500 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (2،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
steps/observation/dist_to_target | تانسور | (1،) | float32 | |
مراحل / مشاهده / موقعیت | تانسور | (4،) | float32 | |
مراحل/مشاهده/موقعیت_هدف | تانسور | (2،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
حجم مجموعه داده :
32.81 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 200 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (5،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
مراحل/مشاهده/زوایای_مشترک | تانسور | (7،) | float32 | |
مراحل / مشاهده / هدف | تانسور | (3،) | float32 | |
پله ها/مشاهده/ایستاده | تانسور | (1،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (13،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/humanoid_run
حجم مجموعه داده :
1.21 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 3000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (21،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
steps/observation/com_velocity | تانسور | (3،) | float32 | |
مراحل / مشاهده / اندام ها | تانسور | (12،) | float32 | |
مراحل/مشاهده/هد_ارتفاع | تانسور | (1،) | float32 | |
مراحل/مشاهده/زوایای_مشترک | تانسور | (21،) | float32 | |
steps/observation/torso_vertical | تانسور | (3،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (27،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
حجم مجموعه داده :
385.41 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 1500 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (5،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
steps/observation/arm_pos | تانسور | (16،) | float32 | |
steps/observation/arm_vel | تانسور | (8،) | float32 | |
steps/observation/hand_pos | تانسور | (4،) | float32 | |
steps/observation/object_pos | تانسور | (4،) | float32 | |
steps/observation/object_vel | تانسور | (3،) | float32 | |
steps/observation/target_pos | تانسور | (4،) | float32 | |
مراحل / مشاهده / لمس | تانسور | (5،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
حجم مجموعه داده :
385.73 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 1500 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (5،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
steps/observation/arm_pos | تانسور | (16،) | float32 | |
steps/observation/arm_vel | تانسور | (8،) | float32 | |
steps/observation/hand_pos | تانسور | (4،) | float32 | |
steps/observation/object_pos | تانسور | (4،) | float32 | |
steps/observation/object_vel | تانسور | (3،) | float32 | |
steps/observation/target_pos | تانسور | (4،) | float32 | |
مراحل / مشاهده / لمس | تانسور | (5،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/walker_stand
حجم مجموعه داده :
31.78 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 200 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (6،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
پله ها / مشاهده / ارتفاع | تانسور | (1،) | float32 | |
مراحل / مشاهده / جهت گیری | تانسور | (14،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (9،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
حجم مجموعه داده :
31.78 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 200 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (6،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
پله ها / مشاهده / ارتفاع | تانسور | (1،) | float32 | |
مراحل / مشاهده / جهت گیری | تانسور | (14،) | float32 | |
مراحل / مشاهده / سرعت | تانسور | (9،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):