sự vận động

  • Mô tả :

Các bộ dữ liệu được tạo với một tác nhân SAC được đào tạo về phần thưởng môi trường của các nhiệm vụ vận động MuJoCo. Những bộ dữ liệu này được sử dụng trong What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và tập.s

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

đầu máy/ant_sac_1M_single_policy_stochastic (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một tác nhân SAC được đào tạo cho 1 triệu bước cho Ant.

  • Kích thước tải xuống : 6.49 MiB

  • Kích thước tập dữ liệu : 23.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (số 8,) phao32
bước/giảm giá tenxơ phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (111,) phao32
bước/phần thưởng tenxơ phao32

đầu máy/hopper_sac_1M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một tác nhân SAC được đào tạo cho 1 triệu bước cho Hopper.

  • Kích thước tải xuống : 2.26 MiB

  • Kích thước tập dữ liệu : 2.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (3,) phao32
bước/giảm giá tenxơ phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (11,) phao32
bước/phần thưởng tenxơ phao32

đầu máy/halfcheetah_sac_1M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một nhân viên SAC được đào tạo cho 1 triệu bước cho HalfCheetah.

  • Kích thước tải xuống : 4.49 MiB

  • Kích thước tập dữ liệu : 4.93 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (6,) phao32
bước/giảm giá tenxơ phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (17,) phao32
bước/phần thưởng tenxơ phao32

đầu máy/walker2d_sac_1M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một tác nhân SAC được đào tạo cho 1 triệu bước cho Walker2d.

  • Kích thước tải xuống : 4.35 MiB

  • Kích thước tập dữ liệu : 4.91 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (6,) phao32
bước/giảm giá tenxơ phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (17,) phao32
bước/phần thưởng tenxơ phao32

đầu máy/humanoid_sac_15M_single_policy_stochastic

  • Mô tả cấu hình : Tập dữ liệu được tạo bởi một tác nhân SAC được đào tạo cho 15 triệu bước cho Humanoid.

  • Kích thước tải xuống : 192.78 MiB

  • Kích thước tập dữ liệu : 300.94 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (17,) phao32
bước/giảm giá tenxơ phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (376,) phao32
bước/phần thưởng tenxơ phao32