sự vận động

  • Mô tả :

Các tập dữ liệu được tạo với một đặc vụ SAC được đào tạo về phần thưởng môi trường của các nhiệm vụ vận động MuJoCo. Những bộ dữ liệu này được sử dụng trong vấn đề gì đối với việc học bắt chước đối phương? Orsini và cộng sự. Năm 2021 .

Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion / ant_sac_1M_single_policy_stochastic (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một nhân viên SAC được đào tạo cho 1 triệu bước cho Ant.

  • Kích thước tải xuống : 6.49 MiB

  • Kích thước tập dữ liệu : 23.02 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(111,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (số 8,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (111,) tf.float32
bước / phần thưởng Tensor tf.float32

locomotion / hopper_sac_1M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một nhân viên SAC được đào tạo cho 1 triệu bước cho Hopper.

  • Kích thước tải xuống : 2.26 MiB

  • Kích thước tập dữ liệu : 2.62 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (3,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (11,) tf.float32
bước / phần thưởng Tensor tf.float32

locomotion / halfcheetah_sac_1M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một nhân viên SAC được đào tạo cho 1 triệu bước cho HalfCheetah.

  • Kích thước tải xuống : 4.49 MiB

  • Kích thước tập dữ liệu : 4.93 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

locomotion / walker2d_sac_1M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một nhân viên SAC được đào tạo cho 1 triệu bước cho Walker2d.

  • Kích thước tải xuống : 4.35 MiB

  • Kích thước tập dữ liệu : 4.91 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

locomotion / humanoid_sac_15M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một đặc vụ SAC được đào tạo trong 15 triệu bước cho Hình người.

  • Kích thước tải xuống : 192.78 MiB

  • Kích thước tập dữ liệu: 300.94 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(376,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (17,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (376,) tf.float32
bước / phần thưởng Tensor tf.float32