- Mô tả :
D4RL là một điểm chuẩn mã nguồn mở cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và điểm chuẩn.
Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.
Mô tả cấu hình : Xem thêm chi tiết về nhiệm vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Trang chủ : https://sites.google.com/view/d4rl/home
Các phiên bản :
-
1.0.0
: Bản phát hành ban đầu. -
1.1.0
: Đã thêm is_last. -
1.2.0
(mặc định): Cập nhật để tính đến lần quan sát tiếp theo.
-
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_hopper / v0-Expert (cấu hình mặc định)
Kích thước tải xuống :
51.56 MiB
Kích thước tập dữ liệu:
64.10 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1,029 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v0-medium
Kích thước tải xuống :
51.74 MiB
Kích thước tập dữ liệu :
64.68 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 3.064 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v0-medium-Expert
Kích thước tải xuống :
62.01 MiB
Kích thước tập dữ liệu:
77.25 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 2.277 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v0-mix
Kích thước tải xuống :
10.48 MiB
Kích thước tập dữ liệu :
13.15 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1.250 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v0-random
Kích thước tải xuống :
51.83 MiB
Kích thước tập dữ liệu:
66.06 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 8.793 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-Expert
Kích thước tải xuống :
93.19 MiB
Kích thước tập dữ liệu:
608.03 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1.836 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
chính sách | Các tính năng | |||
chính sách / fc0 | Các tính năng | |||
policy / fc0 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc0 / trọng lượng | Tensor | (256, 11) | tf.float32 | |
chính sách / fc1 | Các tính năng | |||
policy / fc1 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc1 / trọng lượng | Tensor | (256, 256) | tf.float32 | |
chính sách / last_fc | Các tính năng | |||
chính sách / last_fc / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / last_fc_log_std | Các tính năng | |||
chính sách / last_fc_log_std / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc_log_std / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / phi tuyến tính | Tensor | tf.string | ||
chính sách / output_distribution | Tensor | tf.string | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float32 | ||
step / infos / qpos | Tensor | (6,) | tf.float32 | |
step / infos / qvel | Tensor | (6,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-medium
Kích thước tải xuống :
92.03 MiB
Kích thước tập dữ liệu :
1.78 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 6,328 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
chính sách | Các tính năng | |||
chính sách / fc0 | Các tính năng | |||
policy / fc0 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc0 / trọng lượng | Tensor | (256, 11) | tf.float32 | |
chính sách / fc1 | Các tính năng | |||
policy / fc1 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc1 / trọng lượng | Tensor | (256, 256) | tf.float32 | |
chính sách / last_fc | Các tính năng | |||
chính sách / last_fc / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / last_fc_log_std | Các tính năng | |||
chính sách / last_fc_log_std / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc_log_std / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / phi tuyến tính | Tensor | tf.string | ||
chính sách / output_distribution | Tensor | tf.string | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float32 | ||
step / infos / qpos | Tensor | (6,) | tf.float32 | |
step / infos / qvel | Tensor | (6,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-medium-Expert
Kích thước tải xuống :
184.59 MiB
Kích thước tập dữ liệu:
230.24 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(huấn luyện)Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 8.163 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float32 | ||
step / infos / qpos | Tensor | (6,) | tf.float32 | |
step / infos / qvel | Tensor | (6,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-medium-replay
Kích thước tải xuống :
55.65 MiB
Kích thước tập dữ liệu :
34.78 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1.151 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float64 | |
bước / chiết khấu | Tensor | tf.float64 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float64 | |
bước / phần thưởng | Tensor | tf.float64 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-full-replay
Kích thước tải xuống :
183.32 MiB
Kích thước tập dữ liệu:
114.78 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 2.907 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float64 | |
bước / chiết khấu | Tensor | tf.float64 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float64 | |
bước / phần thưởng | Tensor | tf.float64 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v1-random
Kích thước tải xuống :
91.11 MiB
Kích thước tập dữ liệu:
130.73 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(huấn luyện)Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 45.265 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float32 | ||
step / infos / qpos | Tensor | (6,) | tf.float32 | |
step / infos / qvel | Tensor | (6,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-Expert
Kích thước tải xuống :
145.37 MiB
Kích thước tập dữ liệu:
390.40 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 1,028 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
chính sách | Các tính năng | |||
chính sách / fc0 | Các tính năng | |||
policy / fc0 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc0 / trọng lượng | Tensor | (256, 11) | tf.float32 | |
chính sách / fc1 | Các tính năng | |||
policy / fc1 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc1 / trọng lượng | Tensor | (256, 256) | tf.float32 | |
chính sách / last_fc | Các tính năng | |||
chính sách / last_fc / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / last_fc_log_std | Các tính năng | |||
chính sách / last_fc_log_std / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc_log_std / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / phi tuyến tính | Tensor | tf.string | ||
chính sách / output_distribution | Tensor | tf.string | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-full-replay
Kích thước tải xuống :
179.29 MiB
Kích thước tập dữ liệu :
115.04 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 3.515 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-medium
Kích thước tải xuống :
145.68 MiB
Kích thước tập dữ liệu:
702.57 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 2.187 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
chính sách | Các tính năng | |||
chính sách / fc0 | Các tính năng | |||
policy / fc0 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc0 / trọng lượng | Tensor | (256, 11) | tf.float32 | |
chính sách / fc1 | Các tính năng | |||
policy / fc1 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc1 / trọng lượng | Tensor | (256, 256) | tf.float32 | |
chính sách / last_fc | Các tính năng | |||
chính sách / last_fc / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / last_fc_log_std | Các tính năng | |||
chính sách / last_fc_log_std / bias | Tensor | (3,) | tf.float32 | |
chính sách / last_fc_log_std / trọng lượng | Tensor | (3, 256) | tf.float32 | |
chính sách / phi tuyến tính | Tensor | tf.string | ||
chính sách / output_distribution | Tensor | tf.string | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-medium-Expert
Kích thước tải xuống :
290.43 MiB
Kích thước tập dữ liệu :
228.28 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(huấn luyện)Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 3.214 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-medium-replay
Kích thước tải xuống :
72.34 MiB
Kích thước tập dữ liệu:
46.51 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 2.041 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
sự lặp lại | Tensor | tf.int32 | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_mujoco_hopper / v2-random
Kích thước tải xuống :
145.46 MiB
Kích thước tập dữ liệu:
130.72 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(huấn luyện)Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 45.240 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (3,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_probs | Tensor | tf.float64 | ||
step / infos / qpos | Tensor | (6,) | tf.float64 | |
step / infos / qvel | Tensor | (6,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (11,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):