sự vận động

Sự miêu tả :

Các bộ dữ liệu được tạo bởi một đặc vụ SAC được đào tạo về phần thưởng môi trường cho các nhiệm vụ vận động MuJoCo. Những bộ dữ liệu này được sử dụng trong Điều gì quan trọng đối với việc học bắt chước đối nghịch? Orsini và cộng sự. 2021 .

Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và các tập.

Trang chủ : https://github.com/google-research/rlds
Mã nguồn : tfds.rlds.datasets.locomotion.Locomotion
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (cấu hình mặc định)

Mô tả cấu hình : Tập dữ liệu được tạo bởi tác nhân SAC được đào tạo trong 1M bước cho Ant.
Kích thước tải xuống : 6.49 MiB
Kích thước tập dữ liệu : 23.02 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :

Tách ra	Ví dụ
`'train'`	50

Cấu trúc tính năng :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
bước	Tập dữ liệu
bước/hành động	Tenxơ	(số 8,)	phao32
bước/giảm giá	Tenxơ		phao32
bước/is_first	Tenxơ		bool
bước/is_last	Tenxơ		bool
bước/is_terminal	Tenxơ		bool
bước/quan sát	Tenxơ	(111,)	phao32
bước/phần thưởng	Tenxơ		phao32

Ví dụ ( tfds.as_dataframe ):

đầu máy/hopper_sac_1M_single_policy_stochastic

Mô tả cấu hình : Tập dữ liệu được tạo bởi tác nhân SAC được đào tạo cho 1M bước cho Hopper.
Kích thước tải xuống : 2.26 MiB
Kích thước tập dữ liệu : 2.62 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :

Tách ra	Ví dụ
`'train'`	50

Cấu trúc tính năng :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
bước	Tập dữ liệu
bước/hành động	Tenxơ	(3,)	phao32
bước/giảm giá	Tenxơ		phao32
bước/is_first	Tenxơ		bool
bước/is_last	Tenxơ		bool
bước/is_terminal	Tenxơ		bool
bước/quan sát	Tenxơ	(11,)	phao32
bước/phần thưởng	Tenxơ		phao32

Ví dụ ( tfds.as_dataframe ):

đầu máy/halfcheetah_sac_1M_single_policy_stochastic

Mô tả cấu hình : Tập dữ liệu được tạo bởi tác nhân SAC được đào tạo trong 1M bước cho HalfCheetah.
Kích thước tải xuống : 4.49 MiB
Kích thước tập dữ liệu : 4.93 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :

Tách ra	Ví dụ
`'train'`	50

Cấu trúc tính năng :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
bước	Tập dữ liệu
bước/hành động	Tenxơ	(6,)	phao32
bước/giảm giá	Tenxơ		phao32
bước/is_first	Tenxơ		bool
bước/is_last	Tenxơ		bool
bước/is_terminal	Tenxơ		bool
bước/quan sát	Tenxơ	(17,)	phao32
bước/phần thưởng	Tenxơ		phao32

Ví dụ ( tfds.as_dataframe ):

đầu máy/walker2d_sac_1M_single_policy_stochastic

Mô tả cấu hình : Tập dữ liệu được tạo bởi tác nhân SAC được đào tạo cho 1M bước cho Walker2d.
Kích thước tải xuống : 4.35 MiB
Kích thước tập dữ liệu : 4.91 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :

Tách ra	Ví dụ
`'train'`	50

Cấu trúc tính năng :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
bước	Tập dữ liệu
bước/hành động	Tenxơ	(6,)	phao32
bước/giảm giá	Tenxơ		phao32
bước/is_first	Tenxơ		bool
bước/is_last	Tenxơ		bool
bước/is_terminal	Tenxơ		bool
bước/quan sát	Tenxơ	(17,)	phao32
bước/phần thưởng	Tenxơ		phao32

Ví dụ ( tfds.as_dataframe ):

đầu máy/humanoid_sac_15M_single_policy_stochastic

Mô tả cấu hình : Tập dữ liệu được tạo bởi đặc vụ SAC được đào tạo trong 15 triệu bước cho Humanoid.
Kích thước tải xuống : 192.78 MiB
Kích thước tập dữ liệu : 300.94 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :

Tách ra	Ví dụ
`'train'`	200

Cấu trúc tính năng :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
bước	Tập dữ liệu
bước/hành động	Tenxơ	(17,)	phao32
bước/giảm giá	Tenxơ		phao32
bước/is_first	Tenxơ		bool
bước/is_last	Tenxơ		bool
bước/is_terminal	Tenxơ		bool
bước/quan sát	Tenxơ	(376,)	phao32
bước/phần thưởng	Tenxơ		phao32

Ví dụ ( tfds.as_dataframe ):