rlu_locomotion

  • Mô tả :

RL Unplugged là bộ tiêu chuẩn cho việc học củng cố ngoại tuyến. RL Unplugged được thiết kế dựa trên các yếu tố sau: để tạo điều kiện dễ sử dụng, chúng tôi cung cấp bộ dữ liệu với một API thống nhất giúp người hành nghề dễ dàng làm việc với tất cả dữ liệu trong bộ sau khi quy trình chung đã được thiết lập.

Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.

Các nhiệm vụ này được tạo thành từ các nhiệm vụ vận động hành lang liên quan đến CMU Humanoid, mà các nỗ lực trước đó đã sử dụng dữ liệu chụp chuyển động Merel và cộng sự, 2019a , Merel và cộng sự, 2019b hoặc đào tạo từ đầu Song và cộng sự, 2020 . Ngoài ra, kho lưu trữ DM Locomotion chứa một tập hợp các nhiệm vụ được điều chỉnh để phù hợp với loài gặm nhấm ảo Merel et al., 2020 . Chúng tôi nhấn mạnh rằng các nhiệm vụ DM Locomotion có sự kết hợp giữa kiểm soát liên tục DoF cao đầy thách thức cùng với nhận thức từ các quan sát tập trung phong phú. Để biết chi tiết về cách tạo tập dữ liệu, vui lòng tham khảo bài báo.

Chúng tôi khuyên bạn nên thử các phương pháp RL ngoại tuyến trên tập dữ liệu DeepMind Locomotion, nếu bạn quan tâm đến tập dữ liệu RL ngoại tuyến rất thách thức với không gian hành động liên tục.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion / humanoid_corridor (cấu hình mặc định)

  • Kích thước tập dữ liệu : 1.88 GiB

  • Tách :

Tách ra Các ví dụ
'train' 4.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=tf.float32),
                'joints_pos': Tensor(shape=(56,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(56,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (56,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi / body_height Tensor (1,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / người đi bộ / end_effectors_pos Tensor (12,) tf.float32
bước / quan sát / đi bộ / khớp_pos Tensor (56,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (56,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_locomotion / humanoid_gaps

  • Kích thước tập dữ liệu : 4.57 GiB

  • Tách :

Tách ra Các ví dụ
'train' 8.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=tf.float32),
                'joints_pos': Tensor(shape=(56,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(56,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (56,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi / body_height Tensor (1,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / người đi bộ / end_effectors_pos Tensor (12,) tf.float32
bước / quan sát / đi bộ / khớp_pos Tensor (56,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (56,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_locomotion / humanoid_walls

  • Kích thước tập dữ liệu : 2.36 GiB

  • Tách :

Tách ra Các ví dụ
'train' 4.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=tf.float32),
                'joints_pos': Tensor(shape=(56,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(56,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (56,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi / body_height Tensor (1,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / người đi bộ / end_effectors_pos Tensor (12,) tf.float32
bước / quan sát / đi bộ / khớp_pos Tensor (56,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (56,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_locomotion / rodent_bowl_escape

  • Kích thước tập dữ liệu : 16.46 GiB

  • Tách :

Tách ra Các ví dụ
'train' 2.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (38,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi bộ / appendages_pos Tensor (15,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / đi bộ / khớp_pos Tensor (30,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (30,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_touch Tensor (4,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi bộ / gân_pos Tensor (số 8,) tf.float32
số bước / quan sát / người đi / đường gân Tensor (số 8,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_locomotion / rodent_gaps

  • Kích thước tập dữ liệu : 8.90 GiB

  • Tách :

Tách ra Các ví dụ
'train' 2.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (38,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi bộ / appendages_pos Tensor (15,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / đi bộ / khớp_pos Tensor (30,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (30,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_touch Tensor (4,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi bộ / gân_pos Tensor (số 8,) tf.float32
số bước / quan sát / người đi / đường gân Tensor (số 8,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_locomotion / rodent_mazes

  • Kích thước tập dữ liệu : 20.71 GiB

  • Tách :

Tách ra Các ví dụ
'train' 2.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (38,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi bộ / appendages_pos Tensor (15,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / đi bộ / khớp_pos Tensor (30,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (30,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_touch Tensor (4,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi bộ / gân_pos Tensor (số 8,) tf.float32
số bước / quan sát / người đi / đường gân Tensor (số 8,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_locomotion / rodent_two_touch

  • Kích thước tập dữ liệu : 23.05 GiB

  • Tách :

Tách ra Các ví dụ
'train' 2.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (38,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / người đi bộ Các tính năng
bước / quan sát / người đi bộ / appendages_pos Tensor (15,) tf.float32
bước / quan sát / người đi bộ / egocentric_camera Hình ảnh (64, 64, 3) tf.uint8
bước / quan sát / đi bộ / khớp_pos Tensor (30,) tf.float32
bước / quan sát / đi bộ / khớp_vel Tensor (30,) tf.float32
bước / quan sát / người đi bộ / cảm biến_accelerometer Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_gyro Tensor (3,) tf.float32
bước / quan sát / người đi bộ / cảm biến_touch Tensor (4,) tf.float32
bước / quan sát / người đi bộ / cảm biến_velocimeter Tensor (3,) tf.float32
bước / quan sát / người đi bộ / gân_pos Tensor (số 8,) tf.float32
số bước / quan sát / người đi / đường gân Tensor (số 8,) tf.float32
bước / quan sát / người đi / world_zaxis Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64