rlu_control_suite

  • Mô tả :

RL Unplugged là bộ tiêu chuẩn cho việc học củng cố ngoại tuyến. RL Unplugged được thiết kế dựa trên các yếu tố sau: để tạo điều kiện dễ sử dụng, chúng tôi cung cấp bộ dữ liệu với một API thống nhất giúp người hành nghề dễ dàng làm việc với tất cả dữ liệu trong bộ sau khi quy trình chung đã được thiết lập.

Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.

DeepMind Control Suite Tassa và cộng sự, 2018 là một tập hợp các nhiệm vụ kiểm soát được triển khai trong MuJoCo Todorov và cộng sự, 2012 . Chúng tôi coi một tập hợp con các nhiệm vụ được cung cấp trong bộ phần mềm bao gồm một loạt các khó khăn.

Hầu hết các tập dữ liệu trong miền này được tạo bằng D4PG. Đối với các môi trường Quả cầu chèn Manipulator và chốt chèn Manipulator, chúng tôi sử dụng V-MPO Song và cộng sự, 2020 để tạo dữ liệu vì D4PG không thể giải quyết các tác vụ này. Chúng tôi phát hành bộ dữ liệu cho 9 tác vụ của bộ điều khiển. Để biết chi tiết về cách tạo tập dữ liệu, vui lòng tham khảo bài báo.

DeepMind Control Suite là một tiêu chuẩn RL hành động liên tục truyền thống. Đặc biệt, chúng tôi khuyên bạn nên thử nghiệm cách tiếp cận của mình trong DeepMind Control Suite nếu bạn muốn so sánh với các phương pháp RL ngoại tuyến hiện đại khác.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite / cartpole_swingup (cấu hình mặc định)

  • Kích thước tập dữ liệu : 2.12 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 40
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=tf.float32),
            'velocity': Tensor(shape=(2,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (1,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / vị trí Tensor (3,) tf.float32
bước / quan sát / vận tốc Tensor (2,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / cheetah_run

  • Kích thước tập dữ liệu: 36.58 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 300
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=tf.float32),
            'velocity': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / vị trí Tensor (số 8,) tf.float32
bước / quan sát / vận tốc Tensor (9,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / finger_turn_hard

  • Kích thước tập dữ liệu: 47.61 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 500
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=tf.float32),
            'position': Tensor(shape=(4,), dtype=tf.float32),
            'target_position': Tensor(shape=(2,), dtype=tf.float32),
            'velocity': Tensor(shape=(3,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (2,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / dist_to_target Tensor (1,) tf.float32
bước / quan sát / vị trí Tensor (4,) tf.float32
bước / quan sát / target_position Tensor (2,) tf.float32
bước / quan sát / vận tốc Tensor (3,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / fish_swim

  • Kích thước tập dữ liệu: 32.81 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=tf.float32),
            'target': Tensor(shape=(3,), dtype=tf.float32),
            'upright': Tensor(shape=(1,), dtype=tf.float32),
            'velocity': Tensor(shape=(13,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (5,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / doanh_số Tensor (7,) tf.float32
bước / quan sát / mục tiêu Tensor (3,) tf.float32
bước / quan sát / thẳng đứng Tensor (1,) tf.float32
bước / quan sát / vận tốc Tensor (13,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / humanoid_run

  • Kích thước tập dữ liệu : 1.21 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 3.000
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=tf.float32),
            'extremities': Tensor(shape=(12,), dtype=tf.float32),
            'head_height': Tensor(shape=(1,), dtype=tf.float32),
            'joint_angles': Tensor(shape=(21,), dtype=tf.float32),
            'torso_vertical': Tensor(shape=(3,), dtype=tf.float32),
            'velocity': Tensor(shape=(27,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (21,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / com_velocity Tensor (3,) tf.float32
bước / quan sát / chi Tensor (12,) tf.float32
bước / quan sát / head_height Tensor (1,) tf.float32
bước / quan sát / doanh_số Tensor (21,) tf.float32
bước / quan sát / torso_vertical Tensor (3,) tf.float32
bước / quan sát / vận tốc Tensor (27,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / sportsulator_insert_ball

  • Kích thước tập dữ liệu: 385.41 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.500
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=tf.float32),
            'arm_vel': Tensor(shape=(8,), dtype=tf.float32),
            'hand_pos': Tensor(shape=(4,), dtype=tf.float32),
            'object_pos': Tensor(shape=(4,), dtype=tf.float32),
            'object_vel': Tensor(shape=(3,), dtype=tf.float32),
            'target_pos': Tensor(shape=(4,), dtype=tf.float32),
            'touch': Tensor(shape=(5,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (5,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / arm_pos Tensor (16,) tf.float32
bước / quan sát / arm_vel Tensor (số 8,) tf.float32
bước / quan sát / hand_pos Tensor (4,) tf.float32
bước / quan sát / object_pos Tensor (4,) tf.float32
bước / quan sát / object_vel Tensor (3,) tf.float32
bước / quan sát / target_pos Tensor (4,) tf.float32
bước / quan sát / chạm Tensor (5,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / sportsulator_insert_peg

  • Kích thước tập dữ liệu: 385.73 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.500
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=tf.float32),
            'arm_vel': Tensor(shape=(8,), dtype=tf.float32),
            'hand_pos': Tensor(shape=(4,), dtype=tf.float32),
            'object_pos': Tensor(shape=(4,), dtype=tf.float32),
            'object_vel': Tensor(shape=(3,), dtype=tf.float32),
            'target_pos': Tensor(shape=(4,), dtype=tf.float32),
            'touch': Tensor(shape=(5,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (5,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / arm_pos Tensor (16,) tf.float32
bước / quan sát / arm_vel Tensor (số 8,) tf.float32
bước / quan sát / hand_pos Tensor (4,) tf.float32
bước / quan sát / object_pos Tensor (4,) tf.float32
bước / quan sát / object_vel Tensor (3,) tf.float32
bước / quan sát / target_pos Tensor (4,) tf.float32
bước / quan sát / chạm Tensor (5,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / walker_stand

  • Kích thước tập dữ liệu: 31.78 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=tf.float32),
            'orientations': Tensor(shape=(14,), dtype=tf.float32),
            'velocity': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / chiều cao Tensor (1,) tf.float32
bước / quan sát / định hướng Tensor (14,) tf.float32
bước / quan sát / vận tốc Tensor (9,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64

rlu_control_suite / walker_walk

  • Kích thước tập dữ liệu: 31.78 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=tf.float32),
            'orientations': Tensor(shape=(14,), dtype=tf.float32),
            'velocity': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / chiều cao Tensor (1,) tf.float32
bước / quan sát / định hướng Tensor (14,) tf.float32
bước / quan sát / vận tốc Tensor (9,) tf.float32
bước / phần thưởng Tensor tf.float32
dấu thời gian Tensor tf.int64