- شرح :
مجموعه داده ها با یک عامل SAC که در مورد پاداش محیطی وظایف جابجایی MuJoCo آموزش دیده است، ایجاد شدند. این مجموعه داده ها در آموزش تقلید متخاصم چه اهمیتی دارد استفاده می شود؟ اورسینی و همکاران 2021 .
مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند
صفحه اصلی : https://github.com/google-research/rlds
کد منبع :
tfds.rlds.datasets.locomotion.Locomotion
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (پیکربندی پیشفرض)
توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Ant آموزش دیده است.
حجم دانلود :
6.49 MiB
حجم مجموعه داده :
23.02 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 50 |
- ساختار ویژگی :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (8،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | تانسور | (111،) | float32 | |
مراحل/پاداش | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
حرکت/hopper_sac_1M_single_policy_stochastic
توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Hopper آموزش دیده است.
حجم دانلود :
2.26 MiB
حجم مجموعه داده :
2.62 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 50 |
- ساختار ویژگی :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (3،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | تانسور | (11،) | float32 | |
مراحل/پاداش | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
جابجایی/halfcheetah_sac_1M_single_policy_stochastic
توضیحات پیکربندی : مجموعه داده توسط یک عامل SAC که برای 1 میلیون مرحله برای HalfCheetah آموزش دیده است، تولید شده است.
حجم دانلود :
4.49 MiB
حجم مجموعه داده :
4.93 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 50 |
- ساختار ویژگی :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (6،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | تانسور | (17،) | float32 | |
مراحل/پاداش | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
locomotion/walker2d_sac_1M_single_policy_stochastic
توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Walker2d آموزش دیده است.
حجم دانلود :
4.35 MiB
حجم مجموعه داده :
4.91 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 50 |
- ساختار ویژگی :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (6،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | تانسور | (17،) | float32 | |
مراحل/پاداش | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
حرکت/کیسه_انسان_نما_15M_single_policy_stochastic
شرح پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 15 میلیون مرحله برای Humanoid آموزش دیده است.
حجم دانلود :
192.78 MiB
حجم مجموعه داده :
300.94 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 200 |
- ساختار ویژگی :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (17،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | تانسور | (376،) | float32 | |
مراحل/پاداش | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):