- Sự miêu tả :
D4RL là một chuẩn mực nguồn mở dành cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và đo điểm chuẩn.
Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và các tập.
Trang chủ : https://sites.google.com/view/d4rl-anonymous
Mã nguồn :
tfds.d4rl.d4rl_adroit_pen.D4rlAdroitPen
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.1.0
(mặc định): Đã thêm is_last.
-
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_pen/v0-human (cấu hình mặc định)
Mô tả cấu hình : Xem thêm chi tiết về tác vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Kích thước tải xuống :
1.94 MiB
Kích thước tập dữ liệu :
2.52 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 50 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | Tập dữ liệu | |||
bước/hành động | Tenxơ | (24,) | phao32 | |
bước/giảm giá | Tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
bước/thông tin/qpos | Tenxơ | (30,) | phao32 | |
bước/thông tin/qvel | Tenxơ | (30,) | phao32 | |
bước/is_first | Tenxơ | bool | ||
bước/is_last | Tenxơ | bool | ||
bước/is_terminal | Tenxơ | bool | ||
bước/quan sát | Tenxơ | (45,) | phao32 | |
bước/phần thưởng | Tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_pen/v0-nhân bản
Mô tả cấu hình : Xem thêm chi tiết về tác vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Kích thước tải xuống :
292.85 MiB
Kích thước tập dữ liệu :
252.55 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 5.023 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float64),
'qvel': Tensor(shape=(30,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float64),
'reward': float64,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | Tập dữ liệu | |||
bước/hành động | Tenxơ | (24,) | phao32 | |
bước/giảm giá | Tenxơ | phao64 | ||
các bước/thông tin | Tính năngDict | |||
bước/thông tin/qpos | Tenxơ | (30,) | phao64 | |
bước/thông tin/qvel | Tenxơ | (30,) | phao64 | |
bước/is_first | Tenxơ | bool | ||
bước/is_last | Tenxơ | bool | ||
bước/is_terminal | Tenxơ | bool | ||
bước/quan sát | Tenxơ | (45,) | phao64 | |
bước/phần thưởng | Tenxơ | phao64 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_pen/v0-expert
Mô tả cấu hình : Xem thêm chi tiết về tác vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Kích thước tải xuống :
250.13 MiB
Kích thước tập dữ liệu :
344.41 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 5.000 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(24,), dtype=float32),
'action_mean': Tensor(shape=(24,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | Tập dữ liệu | |||
bước/hành động | Tenxơ | (24,) | phao32 | |
bước/giảm giá | Tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
bước/thông tin/hành động_logstd | Tenxơ | (24,) | phao32 | |
bước/thông tin/hành động_mean | Tenxơ | (24,) | phao32 | |
bước/thông tin/qpos | Tenxơ | (30,) | phao32 | |
bước/thông tin/qvel | Tenxơ | (30,) | phao32 | |
bước/is_first | Tenxơ | bool | ||
bước/is_last | Tenxơ | bool | ||
bước/is_terminal | Tenxơ | bool | ||
bước/quan sát | Tenxơ | (45,) | phao32 | |
bước/phần thưởng | Tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-human
Mô tả cấu hình : Xem thêm chi tiết về tác vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Kích thước tải xuống :
1.95 MiB
Kích thước tập dữ liệu :
2.60 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 25 |
- Cấu trúc tính năng :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
bước | Tập dữ liệu | |||
bước/hành động | Tenxơ | (24,) | phao32 | |
bước/giảm giá | Tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
bước/thông tin/desired_orien | Tenxơ | (4,) | phao32 | |
bước/thông tin/qpos | Tenxơ | (30,) | phao32 | |
bước/thông tin/qvel | Tenxơ | (30,) | phao32 | |
bước/is_first | Tenxơ | bool | ||
bước/is_last | Tenxơ | bool | ||
bước/is_terminal | Tenxơ | bool | ||
bước/quan sát | Tenxơ | (45,) | phao32 | |
bước/phần thưởng | Tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-nhân bản
Mô tả cấu hình : Xem thêm chi tiết về tác vụ và các phiên bản của nó trong https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Kích thước tải xuống :
147.89 MiB
Kích thước tập dữ liệu :
1.43 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 3.755 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(45, 256), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(256, 24), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | Tenxơ | sợi dây | ||
chính sách | Tính năngDict | |||
chính sách/fc0 | Tính năngDict | |||
chính sách/fc0/thiên vị | Tenxơ | (256,) | phao32 | |
chính sách/fc0/trọng lượng | Tenxơ | (45, 256) | phao32 | |
chính sách/fc1 | Tính năngDict | |||
chính sách/fc1/thiên vị | Tenxơ | (256,) | phao32 | |
chính sách/fc1/trọng lượng | Tenxơ | (256, 256) | phao32 | |
chính sách/last_fc | Tính năngDict | |||
chính sách/last_fc/thiên vị | Tenxơ | (24,) | phao32 | |
chính sách/last_fc/trọng lượng | Tenxơ | (256, 24) | phao32 | |
chính sách/phi tuyến tính | Tenxơ | sợi dây | ||
chính sách/output_distribution | Tenxơ | sợi dây | ||
bước | Tập dữ liệu | |||
bước/hành động | Tenxơ | (24,) | phao32 | |
bước/giảm giá | Tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
bước/thông tin/desired_orien | Tenxơ | (4,) | phao32 | |
bước/thông tin/qpos | Tenxơ | (30,) | phao32 | |
bước/thông tin/qvel | Tenxơ | (30,) | phao32 | |
bước/là_đầu tiên | Tenxơ | bool | ||
bước/is_last | Tenxơ | bool | ||
bước/is_terminal | Tenxơ | bool | ||
bước/quan sát | Tenxơ | (45,) | phao32 | |
bước/phần thưởng | Tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-expert
Kích thước tải xuống :
249.90 MiB
Kích thước tập dữ liệu :
548.47 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 5.000 |
- Cấu trúc tính năng :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(64,), dtype=float32),
'weight': Tensor(shape=(64, 45), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(64,), dtype=float32),
'weight': Tensor(shape=(64, 64), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(24, 64), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(24, 64), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(24,), dtype=float32),
'action_mean': Tensor(shape=(24,), dtype=float32),
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
thuật toán | Tenxơ | sợi dây | ||
chính sách | Tính năngDict | |||
chính sách/fc0 | Tính năngDict | |||
chính sách/fc0/thiên vị | Tenxơ | (64,) | phao32 | |
chính sách/fc0/trọng lượng | Tenxơ | (64, 45) | phao32 | |
chính sách/fc1 | Tính năngDict | |||
chính sách/fc1/thiên vị | Tenxơ | (64,) | phao32 | |
chính sách/fc1/trọng lượng | Tenxơ | (64, 64) | phao32 | |
chính sách/last_fc | Tính năngDict | |||
chính sách/last_fc/thiên vị | Tenxơ | (24,) | phao32 | |
chính sách/last_fc/trọng lượng | Tenxơ | (24, 64) | phao32 | |
chính sách/last_fc_log_std | Tính năngDict | |||
chính sách/last_fc_log_std/thiên vị | Tenxơ | (24,) | phao32 | |
chính sách/last_fc_log_std/trọng lượng | Tenxơ | (24, 64) | phao32 | |
chính sách/phi tuyến tính | Tenxơ | sợi dây | ||
chính sách/output_distribution | Tenxơ | sợi dây | ||
bước | Tập dữ liệu | |||
bước/hành động | Tenxơ | (24,) | phao32 | |
bước/giảm giá | Tenxơ | phao32 | ||
các bước/thông tin | Tính năngDict | |||
bước/thông tin/action_log_std | Tenxơ | (24,) | phao32 | |
bước/thông tin/hành động_mean | Tenxơ | (24,) | phao32 | |
bước/thông tin/desired_orien | Tenxơ | (4,) | phao32 | |
bước/thông tin/qpos | Tenxơ | (30,) | phao32 | |
bước/thông tin/qvel | Tenxơ | (30,) | phao32 | |
bước/is_first | Tenxơ | bool | ||
bước/is_last | Tenxơ | bool | ||
bước/is_terminal | Tenxơ | bool | ||
bước/quan sát | Tenxơ | (45,) | phao32 | |
bước/phần thưởng | Tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):