- Mô tả :
D4RL là một điểm chuẩn mã nguồn mở cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và đo điểm chuẩn.
Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và giai đoạn.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Mô tả cấu hình : Xem thêm chi tiết về nhiệm vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Trang chủ : https://sites.google.com/view/d4rl/home
Mã nguồn :
tfds.d4rl.d4rl_mujoco_ant.D4rlMujocoAnt
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.1.0
: Đã thêm is_last. -
1.2.0
(mặc định): Đã cập nhật để tính đến lần quan sát tiếp theo.
-
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_ant/v0-expert (cấu hình mặc định)
Kích thước tải xuống :
131.34 MiB
Kích thước tập dữ liệu :
464.94 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.288 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v0-trung bình
Kích thước tải xuống :
131.39 MiB
Kích thước tập dữ liệu :
464.78 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.122 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v0-medium-expert
Kích thước tải xuống :
262.73 MiB
Kích thước tập dữ liệu :
929.71 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.410 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v0-hỗn hợp
Kích thước tải xuống :
104.63 MiB
Kích thước tập dữ liệu :
464.93 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.320 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v0-ngẫu nhiên
Kích thước tải xuống :
139.50 MiB
Kích thước tập dữ liệu :
464.97 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.377 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v1-chuyên gia
Kích thước tải xuống :
220.72 MiB
Kích thước tập dữ liệu :
968.63 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.033 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
chính sách | Tính năngDict | |||
chính sách/fc0 | Tính năngDict | |||
chính sách/fc0/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc0/trọng lượng | tenxơ | (256, 111) | phao32 | |
chính sách/fc1 | Tính năngDict | |||
chính sách/fc1/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc1/trọng lượng | tenxơ | (256, 256) | phao32 | |
chính sách/last_fc | Tính năngDict | |||
chính sách/last_fc/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/last_fc_log_std | Tính năngDict | |||
chính sách/last_fc_log_std/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc_log_std/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/phi tuyến tính | tenxơ | sợi dây | ||
chính sách/đầu ra_phân phối | tenxơ | sợi dây | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao32 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao32 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao32 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v1-trung bình
Kích thước tải xuống :
222.39 MiB
Kích thước tập dữ liệu :
1023.71 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.179 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
chính sách | Tính năngDict | |||
chính sách/fc0 | Tính năngDict | |||
chính sách/fc0/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc0/trọng lượng | tenxơ | (256, 111) | phao32 | |
chính sách/fc1 | Tính năngDict | |||
chính sách/fc1/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc1/trọng lượng | tenxơ | (256, 256) | phao32 | |
chính sách/last_fc | Tính năngDict | |||
chính sách/last_fc/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/last_fc_log_std | Tính năngDict | |||
chính sách/last_fc_log_std/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc_log_std/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/phi tuyến tính | tenxơ | sợi dây | ||
chính sách/đầu ra_phân phối | tenxơ | sợi dây | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao32 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao32 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao32 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v1-medium-expert
Kích thước tải xuống :
442.25 MiB
Kích thước tập dữ liệu :
1.13 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2,211 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao32 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao32 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao32 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v1-medium-replay
Kích thước tải xuống :
132.05 MiB
Kích thước tập dữ liệu :
175.27 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 485 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float64),
'reward': float64,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao64 | |
bước/giảm giá | tenxơ | phao64 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao64 | |
bước/phần thưởng | tenxơ | phao64 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v1-phát lại đầy đủ
Kích thước tải xuống :
437.57 MiB
Kích thước tập dữ liệu :
580.09 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.319 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float64),
'reward': float64,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao64 | |
bước/giảm giá | tenxơ | phao64 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao64 | |
bước/phần thưởng | tenxơ | phao64 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v1-random
Kích thước tải xuống :
225.18 MiB
Kích thước tập dữ liệu :
583.83 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 5,741 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(15,), dtype=float32),
'qvel': Tensor(shape=(14,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao32 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao32 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao32 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v2-chuyên gia
Kích thước tải xuống :
355.94 MiB
Kích thước tập dữ liệu :
969.38 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.035 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
chính sách | Tính năngDict | |||
chính sách/fc0 | Tính năngDict | |||
chính sách/fc0/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc0/trọng lượng | tenxơ | (256, 111) | phao32 | |
chính sách/fc1 | Tính năngDict | |||
chính sách/fc1/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc1/trọng lượng | tenxơ | (256, 256) | phao32 | |
chính sách/last_fc | Tính năngDict | |||
chính sách/last_fc/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/last_fc_log_std | Tính năngDict | |||
chính sách/last_fc_log_std/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc_log_std/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/phi tuyến tính | tenxơ | sợi dây | ||
chính sách/đầu ra_phân phối | tenxơ | sợi dây | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v2-phát lại đầy đủ
Kích thước tải xuống :
428.57 MiB
Kích thước tập dữ liệu :
580.09 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.319 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v2-trung bình
Kích thước tải xuống :
358.81 MiB
Kích thước tập dữ liệu :
1.01 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.203 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 111), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(8,), dtype=float32),
'weight': Tensor(shape=(8, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
chính sách | Tính năngDict | |||
chính sách/fc0 | Tính năngDict | |||
chính sách/fc0/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc0/trọng lượng | tenxơ | (256, 111) | phao32 | |
chính sách/fc1 | Tính năngDict | |||
chính sách/fc1/thiên vị | tenxơ | (256,) | phao32 | |
chính sách/fc1/trọng lượng | tenxơ | (256, 256) | phao32 | |
chính sách/last_fc | Tính năngDict | |||
chính sách/last_fc/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/last_fc_log_std | Tính năngDict | |||
chính sách/last_fc_log_std/thiên vị | tenxơ | (số 8,) | phao32 | |
chính sách/last_fc_log_std/trọng lượng | tenxơ | (8, 256) | phao32 | |
chính sách/phi tuyến tính | tenxơ | sợi dây | ||
chính sách/đầu ra_phân phối | tenxơ | sợi dây | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v2-medium-expert
Kích thước tải xuống :
713.67 MiB
Kích thước tập dữ liệu :
1.13 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2,237 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v2-medium-replay
Kích thước tải xuống :
130.16 MiB
Kích thước tập dữ liệu :
175.27 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 485 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | tenxơ | sợi dây | ||
sự lặp đi lặp lại | tenxơ | int32 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_ant/v2-random
Kích thước tải xuống :
366.66 MiB
Kích thước tập dữ liệu :
583.90 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 5,822 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(15,), dtype=float64),
'qvel': Tensor(shape=(14,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (số 8,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
các bước/thông tin/action_log_probs | tenxơ | phao64 | ||
các bước/thông tin/qpos | tenxơ | (15,) | phao64 | |
các bước/thông tin/qvel | tenxơ | (14,) | phao64 | |
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | tenxơ | (111,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):