rlu_control_suite

  • คำอธิบาย :

RL Unplugged เป็นชุดมาตรฐานสำหรับการเรียนรู้เสริมกำลังแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงสิ่งต่อไปนี้: เพื่ออำนวยความสะดวกในการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวม ซึ่งช่วยให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดได้ง่ายเมื่อมีการสร้างไปป์ไลน์ทั่วไป

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ

DeepMind Control Suite Tassa et al., 2018 เป็นชุดของงานควบคุมที่ใช้ใน MuJoCo Todorov และคณะ 2012 เราพิจารณาส่วนย่อยของงานที่มีให้ในชุดที่ครอบคลุมความยากต่างๆ

ชุดข้อมูลส่วนใหญ่ในโดเมนนี้สร้างขึ้นโดยใช้ D4PG สำหรับสภาพแวดล้อม Manipulator insert ball และ Manipulator insert peg เราใช้ V-MPO Song et al., 2020 เพื่อสร้างข้อมูลเนื่องจาก D4PG ไม่สามารถแก้ปัญหาเหล่านี้ได้ เราเผยแพร่ชุดข้อมูลสำหรับงานชุดควบคุม 9 ชุด สำหรับรายละเอียดเกี่ยวกับวิธีสร้างชุดข้อมูล โปรดดูเอกสาร

DeepMind Control Suite เป็นเกณฑ์มาตรฐาน RL การดำเนินการต่อเนื่องแบบดั้งเดิม โดยเฉพาะอย่างยิ่ง เราขอแนะนำให้คุณทดสอบวิธีการของคุณใน DeepMind Control Suite หากคุณสนใจที่จะเปรียบเทียบกับวิธีการ RL ออฟไลน์ที่ทันสมัยอื่นๆ

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 2.12 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 40
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/cheetah_run

  • ขนาดชุดข้อมูล : 36.58 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 300
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (8,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/finger_turn_hard

  • ขนาดชุดข้อมูล : 47.61 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (2,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/ข้อสังเกต/dist_to_target เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/target_position เทนเซอร์ (2,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/fish_swim

  • ขนาดชุดข้อมูล : 32.81 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (5,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (7,) ลอย32
ขั้นตอน/ข้อสังเกต/เป้าหมาย เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ตรง เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (13,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/ฮิวแมนนอยด์_รัน

แยก ตัวอย่าง
'train' 3,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/manipulator_insert_ball

แยก ตัวอย่าง
'train' 1,500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (5,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/arm_pos เทนเซอร์ (16,) ลอย32
ขั้นตอน/การสังเกต/arm_vel เทนเซอร์ (8,) ลอย32
ขั้นตอน/ข้อสังเกต/hand_pos เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/object_pos เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/object_vel เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/target_pos เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/สัมผัส เทนเซอร์ (5,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/manipulator_insert_peg

แยก ตัวอย่าง
'train' 1,500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (5,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/arm_pos เทนเซอร์ (16,) ลอย32
ขั้นตอน/การสังเกต/arm_vel เทนเซอร์ (8,) ลอย32
ขั้นตอน/ข้อสังเกต/hand_pos เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/object_pos เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/object_vel เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/target_pos เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/สัมผัส เทนเซอร์ (5,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/วอล์คเกอร์_สแตนด์

  • ขนาดชุดข้อมูล : 31.78 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_control_suite/walker_walk

  • ขนาดชุดข้อมูล : 31.78 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64