- Mô tả :
D4RL là một điểm chuẩn mã nguồn mở cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và điểm chuẩn.
Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.
Mô tả cấu hình : Xem thêm chi tiết về nhiệm vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Trang chủ : https://sites.google.com/view/d4rl/home
Mã nguồn :
tfds.d4rl.d4rl_adroit_door.D4rlAdroitDoor
Các phiên bản :
-
1.0.0
: Bản phát hành ban đầu. -
1.1.0
(mặc định): Đã thêm is_last.
-
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_door / v0-human (cấu hình mặc định)
Kích thước tải xuống :
2.97 MiB
Kích thước tập dữ liệu :
3.36 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 50 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=tf.float32),
'qvel': Tensor(shape=(30,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(39,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (28,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / qpos | Tensor | (30,) | tf.float32 | |
step / infos / qvel | Tensor | (30,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (39,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_door / v0-clone
Kích thước tải xuống :
602.42 MiB
Kích thước tập dữ liệu:
497.47 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 6.214 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=tf.float32),
'discount': tf.float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=tf.float64),
'qvel': Tensor(shape=(30,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(39,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (28,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float64 | ||
các bước / thông tin | Các tính năng | |||
step / infos / qpos | Tensor | (30,) | tf.float64 | |
step / infos / qvel | Tensor | (30,) | tf.float64 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (39,) | tf.float64 | |
bước / phần thưởng | Tensor | tf.float64 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_door / v0-Expert
Kích thước tải xuống :
511.05 MiB
Kích thước tập dữ liệu:
710.30 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 5.000 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(28,), dtype=tf.float32),
'action_mean': Tensor(shape=(28,), dtype=tf.float32),
'qpos': Tensor(shape=(30,), dtype=tf.float32),
'qvel': Tensor(shape=(30,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(39,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (28,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_logstd | Tensor | (28,) | tf.float32 | |
step / infos / action_mean | Tensor | (28,) | tf.float32 | |
step / infos / qpos | Tensor | (30,) | tf.float32 | |
step / infos / qvel | Tensor | (30,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (39,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_door / v1-human
Kích thước tải xuống :
2.98 MiB
Kích thước tập dữ liệu :
3.42 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 25 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'door_body_pos': Tensor(shape=(3,), dtype=tf.float32),
'qpos': Tensor(shape=(30,), dtype=tf.float32),
'qvel': Tensor(shape=(30,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(39,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
các bước | Dataset | |||
các bước / hành động | Tensor | (28,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / door_body_pos | Tensor | (3,) | tf.float32 | |
step / infos / qpos | Tensor | (30,) | tf.float32 | |
step / infos / qvel | Tensor | (30,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (39,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_door / v1-clone
Kích thước tải xuống :
280.72 MiB
Kích thước tập dữ liệu :
1.85 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 4.358 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(39, 256), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(28,), dtype=tf.float32),
'weight': Tensor(shape=(256, 28), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'door_body_pos': Tensor(shape=(3,), dtype=tf.float32),
'qpos': Tensor(shape=(30,), dtype=tf.float32),
'qvel': Tensor(shape=(30,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(39,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
chính sách | Các tính năng | |||
chính sách / fc0 | Các tính năng | |||
policy / fc0 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc0 / trọng lượng | Tensor | (39, 256) | tf.float32 | |
chính sách / fc1 | Các tính năng | |||
policy / fc1 / bias | Tensor | (256,) | tf.float32 | |
chính sách / fc1 / trọng lượng | Tensor | (256, 256) | tf.float32 | |
chính sách / last_fc | Các tính năng | |||
chính sách / last_fc / bias | Tensor | (28,) | tf.float32 | |
chính sách / last_fc / trọng lượng | Tensor | (256, 28) | tf.float32 | |
chính sách / phi tuyến tính | Tensor | tf.string | ||
chính sách / output_distribution | Tensor | tf.string | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (28,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / door_body_pos | Tensor | (3,) | tf.float32 | |
step / infos / qpos | Tensor | (30,) | tf.float32 | |
step / infos / qvel | Tensor | (30,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (39,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_door / v1-Expert
Kích thước tải xuống :
511.22 MiB
Kích thước tập dữ liệu:
803.48 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 5.000 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': tf.string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=tf.float32),
'weight': Tensor(shape=(32, 39), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=tf.float32),
'weight': Tensor(shape=(32, 32), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(28,), dtype=tf.float32),
'weight': Tensor(shape=(28, 32), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(28,), dtype=tf.float32),
'weight': Tensor(shape=(28, 32), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(28,), dtype=tf.float32),
'action_mean': Tensor(shape=(28,), dtype=tf.float32),
'door_body_pos': Tensor(shape=(3,), dtype=tf.float32),
'qpos': Tensor(shape=(30,), dtype=tf.float32),
'qvel': Tensor(shape=(30,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(39,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
thuật toán | Tensor | tf.string | ||
chính sách | Các tính năng | |||
chính sách / fc0 | Các tính năng | |||
policy / fc0 / bias | Tensor | (32,) | tf.float32 | |
chính sách / fc0 / trọng lượng | Tensor | (32, 39) | tf.float32 | |
chính sách / fc1 | Các tính năng | |||
policy / fc1 / bias | Tensor | (32,) | tf.float32 | |
chính sách / fc1 / trọng lượng | Tensor | (32, 32) | tf.float32 | |
chính sách / last_fc | Các tính năng | |||
chính sách / last_fc / bias | Tensor | (28,) | tf.float32 | |
chính sách / last_fc / trọng lượng | Tensor | (28, 32) | tf.float32 | |
chính sách / last_fc_log_std | Các tính năng | |||
chính sách / last_fc_log_std / bias | Tensor | (28,) | tf.float32 | |
chính sách / last_fc_log_std / trọng lượng | Tensor | (28, 32) | tf.float32 | |
chính sách / phi tuyến tính | Tensor | tf.string | ||
chính sách / output_distribution | Tensor | tf.string | ||
các bước | Dataset | |||
các bước / hành động | Tensor | (28,) | tf.float32 | |
bước / chiết khấu | Tensor | tf.float32 | ||
các bước / thông tin | Các tính năng | |||
step / infos / action_log_std | Tensor | (28,) | tf.float32 | |
step / infos / action_mean | Tensor | (28,) | tf.float32 | |
step / infos / door_body_pos | Tensor | (3,) | tf.float32 | |
step / infos / qpos | Tensor | (30,) | tf.float32 | |
step / infos / qvel | Tensor | (30,) | tf.float32 | |
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Tensor | (39,) | tf.float32 | |
bước / phần thưởng | Tensor | tf.float32 |
- Ví dụ ( tfds.as_dataframe ):