- Mô tả :
RL Unplugged là bộ tiêu chuẩn cho việc học tăng cường ngoại tuyến. RL Unplugged được thiết kế dựa trên những cân nhắc sau: để tạo điều kiện thuận lợi cho việc sử dụng, chúng tôi cung cấp các bộ dữ liệu với một API thống nhất giúp người thực hành dễ dàng làm việc với tất cả dữ liệu trong bộ sau khi một quy trình chung đã được thiết lập.
Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và giai đoạn.
Các nhiệm vụ này được tạo thành từ các nhiệm vụ vận động hành lang liên quan đến Hình người CMU, mà những nỗ lực trước đây đã sử dụng dữ liệu ghi lại chuyển động Merel và cộng sự, 2019a , Merel và cộng sự, 2019b hoặc đào tạo từ đầu Song và cộng sự, 2020 . Ngoài ra, kho lưu trữ DM Locomotion chứa một tập hợp các tác vụ được điều chỉnh để phù hợp với loài gặm nhấm ảo Merel et al., 2020 . Chúng tôi nhấn mạnh rằng các nhiệm vụ Đầu máy DM có sự kết hợp giữa khả năng kiểm soát liên tục ở cường độ cao đầy thách thức cùng với nhận thức từ các quan sát vị kỷ phong phú. Để biết chi tiết về cách tạo bộ dữ liệu, vui lòng tham khảo bài viết.
Chúng tôi khuyên bạn nên thử các phương pháp RL ngoại tuyến trên tập dữ liệu DeepMind Locomotion, nếu bạn quan tâm đến tập dữ liệu RL ngoại tuyến đầy thử thách với không gian hành động liên tục.
Trang chủ : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_locomotion/humanoid_corridor (cấu hình mặc định)
Kích thước tập dữ liệu :
1.88 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 4.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (56,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/body_height | tenxơ | (1,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/end_effectors_pos | tenxơ | (12,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (56,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (56,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):
rlu_locomotion/humanoid_gaps
Kích thước tập dữ liệu :
4.57 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 8.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (56,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/body_height | tenxơ | (1,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/end_effectors_pos | tenxơ | (12,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (56,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (56,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):
rlu_locomotion/humanoid_walls
Kích thước tập dữ liệu :
2.36 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 4.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (56,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/body_height | tenxơ | (1,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/end_effectors_pos | tenxơ | (12,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (56,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (56,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):
rlu_locomotion/rodent_bowl_escape
Kích thước tập dữ liệu :
16.46 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (38,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/appendages_pos | tenxơ | (15,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (30,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (30,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_touch | tenxơ | (4,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
các bước/quan sát/người đi bộ/gân_pos | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/gân_vel | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):
rlu_locomotion/rodent_gaps
Kích thước tập dữ liệu :
8.90 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (38,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/appendages_pos | tenxơ | (15,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (30,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (30,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_touch | tenxơ | (4,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
các bước/quan sát/người đi bộ/gân_pos | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/gân_vel | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):
rlu_locomotion/rodent_mazes
Kích thước tập dữ liệu :
20.71 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (38,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/appendages_pos | tenxơ | (15,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (30,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (30,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_touch | tenxơ | (4,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
các bước/quan sát/người đi bộ/gân_pos | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/gân_vel | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):
rlu_locomotion/rodent_two_touch
Kích thước tập dữ liệu :
23.05 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.000 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_id | tenxơ | int64 | ||
bước | tập dữ liệu | |||
bước/hành động | tenxơ | (38,) | phao32 | |
bước/giảm giá | tenxơ | phao32 | ||
các bước/is_first | tenxơ | bool | ||
bước/is_last | tenxơ | bool | ||
bước/is_terminal | tenxơ | bool | ||
các bước/quan sát | Tính năngDict | |||
bước/quan sát/người đi bộ | Tính năngDict | |||
bước/quan sát/người đi bộ/appendages_pos | tenxơ | (15,) | phao32 | |
bước/quan sát/người đi bộ/egocentric_camera | Hình ảnh | (64, 64, 3) | uint8 | |
các bước/quan sát/người đi bộ/khớp_pos | tenxơ | (30,) | phao32 | |
các bước/quan sát/người đi bộ/khớp_vel | tenxơ | (30,) | phao32 | |
bước/quan sát/người đi bộ/sensors_accelerometer | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_gyro | tenxơ | (3,) | phao32 | |
bước/quan sát/người đi bộ/sensors_touch | tenxơ | (4,) | phao32 | |
bước/quan sát/người đi bộ/sensors_velocimeter | tenxơ | (3,) | phao32 | |
các bước/quan sát/người đi bộ/gân_pos | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/gân_vel | tenxơ | (số 8,) | phao32 | |
bước/quan sát/người đi bộ/world_zaxis | tenxơ | (3,) | phao32 | |
bước/phần thưởng | tenxơ | phao32 | ||
dấu thời gian | tenxơ | int64 |
- Ví dụ ( tfds.as_dataframe ):