حرکت

شرح :

مجموعه داده ها با یک عامل SAC که در مورد پاداش محیطی وظایف جابجایی MuJoCo آموزش دیده است، ایجاد شدند. این مجموعه داده ها در آموزش تقلید متخاصم چه اهمیتی دارد استفاده می شود؟ اورسینی و همکاران 2021 .

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند

صفحه اصلی : https://github.com/google-research/rlds
کد منبع : tfds.rlds.datasets.locomotion.Locomotion
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (پیکربندی پیش‌فرض)

توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Ant آموزش دیده است.
حجم دانلود : 6.49 MiB
حجم مجموعه داده : 23.02 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	50

ساختار ویژگی :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
مراحل	مجموعه داده
مراحل/عمل	تانسور	(8،)	float32
مراحل/تخفیف	تانسور		float32
Steps/is_first	تانسور		بوول
Steps/is_last	تانسور		بوول
Steps/is_terminal	تانسور		بوول
مراحل / مشاهده	تانسور	(111،)	float32
مراحل/پاداش	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

حرکت/hopper_sac_1M_single_policy_stochastic

توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Hopper آموزش دیده است.
حجم دانلود : 2.26 MiB
حجم مجموعه داده : 2.62 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	50

ساختار ویژگی :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
مراحل	مجموعه داده
مراحل/عمل	تانسور	(3،)	float32
مراحل/تخفیف	تانسور		float32
Steps/is_first	تانسور		بوول
Steps/is_last	تانسور		بوول
Steps/is_terminal	تانسور		بوول
مراحل / مشاهده	تانسور	(11،)	float32
مراحل/پاداش	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

جابجایی/halfcheetah_sac_1M_single_policy_stochastic

توضیحات پیکربندی : مجموعه داده توسط یک عامل SAC که برای 1 میلیون مرحله برای HalfCheetah آموزش دیده است، تولید شده است.
حجم دانلود : 4.49 MiB
حجم مجموعه داده : 4.93 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	50

ساختار ویژگی :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
مراحل	مجموعه داده
مراحل/عمل	تانسور	(6،)	float32
مراحل/تخفیف	تانسور		float32
Steps/is_first	تانسور		بوول
Steps/is_last	تانسور		بوول
Steps/is_terminal	تانسور		بوول
مراحل / مشاهده	تانسور	(17،)	float32
مراحل/پاداش	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

locomotion/walker2d_sac_1M_single_policy_stochastic

توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Walker2d آموزش دیده است.
حجم دانلود : 4.35 MiB
حجم مجموعه داده : 4.91 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	50

ساختار ویژگی :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
مراحل	مجموعه داده
مراحل/عمل	تانسور	(6،)	float32
مراحل/تخفیف	تانسور		float32
Steps/is_first	تانسور		بوول
Steps/is_last	تانسور		بوول
Steps/is_terminal	تانسور		بوول
مراحل / مشاهده	تانسور	(17،)	float32
مراحل/پاداش	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

حرکت/کیسه_انسان_نما_15M_single_policy_stochastic

شرح پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 15 میلیون مرحله برای Humanoid آموزش دیده است.
حجم دانلود : 192.78 MiB
حجم مجموعه داده : 300.94 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	200

ساختار ویژگی :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
مراحل	مجموعه داده
مراحل/عمل	تانسور	(17،)	float32
مراحل/تخفیف	تانسور		float32
Steps/is_first	تانسور		بوول
Steps/is_last	تانسور		بوول
Steps/is_terminal	تانسور		بوول
مراحل / مشاهده	تانسور	(376،)	float32
مراحل/پاداش	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):