حرکت

  • شرح :

مجموعه داده ها با یک عامل SAC که در مورد پاداش محیطی وظایف جابجایی MuJoCo آموزش دیده است، ایجاد شدند. این مجموعه داده ها در آموزش تقلید متخاصم چه اهمیتی دارد استفاده می شود؟ اورسینی و همکاران 2021 .

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Ant آموزش دیده است.

  • حجم دانلود : 6.49 MiB

  • حجم مجموعه داده : 23.02 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

شکاف مثال ها
'train' 50
  • ساختار ویژگی :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
مراحل مجموعه داده
مراحل/عمل تانسور (8،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده تانسور (111،) float32
مراحل/پاداش تانسور float32

حرکت/hopper_sac_1M_single_policy_stochastic

  • توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Hopper آموزش دیده است.

  • حجم دانلود : 2.26 MiB

  • حجم مجموعه داده : 2.62 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 50
  • ساختار ویژگی :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
مراحل مجموعه داده
مراحل/عمل تانسور (3،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده تانسور (11،) float32
مراحل/پاداش تانسور float32

جابجایی/halfcheetah_sac_1M_single_policy_stochastic

  • توضیحات پیکربندی : مجموعه داده توسط یک عامل SAC که برای 1 میلیون مرحله برای HalfCheetah آموزش دیده است، تولید شده است.

  • حجم دانلود : 4.49 MiB

  • حجم مجموعه داده : 4.93 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 50
  • ساختار ویژگی :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
مراحل مجموعه داده
مراحل/عمل تانسور (6،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده تانسور (17،) float32
مراحل/پاداش تانسور float32

locomotion/walker2d_sac_1M_single_policy_stochastic

  • توضیحات پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 1 میلیون مرحله برای Walker2d آموزش دیده است.

  • حجم دانلود : 4.35 MiB

  • حجم مجموعه داده : 4.91 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

شکاف مثال ها
'train' 50
  • ساختار ویژگی :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
مراحل مجموعه داده
مراحل/عمل تانسور (6،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده تانسور (17،) float32
مراحل/پاداش تانسور float32

حرکت/کیسه_انسان_نما_15M_single_policy_stochastic

  • شرح پیکربندی : مجموعه داده تولید شده توسط یک عامل SAC که برای 15 میلیون مرحله برای Humanoid آموزش دیده است.

  • حجم دانلود : 192.78 MiB

  • حجم مجموعه داده : 300.94 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 200
  • ساختار ویژگی :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
مراحل مجموعه داده
مراحل/عمل تانسور (17،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده تانسور (376،) float32
مراحل/پاداش تانسور float32