- คำอธิบาย :
RL Unplugged เป็นชุดมาตรฐานสำหรับการเรียนรู้เสริมกำลังแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงสิ่งต่อไปนี้: เพื่ออำนวยความสะดวกในการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวม ซึ่งช่วยให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดได้ง่ายเมื่อมีการสร้างไปป์ไลน์ทั่วไป
ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ
DeepMind Control Suite Tassa et al., 2018 เป็นชุดของงานควบคุมที่ใช้ใน MuJoCo Todorov และคณะ 2012 เราพิจารณาส่วนย่อยของงานที่มีให้ในชุดที่ครอบคลุมความยากต่างๆ
ชุดข้อมูลส่วนใหญ่ในโดเมนนี้สร้างขึ้นโดยใช้ D4PG สำหรับสภาพแวดล้อม Manipulator insert ball และ Manipulator insert peg เราใช้ V-MPO Song et al., 2020 เพื่อสร้างข้อมูลเนื่องจาก D4PG ไม่สามารถแก้ปัญหาเหล่านี้ได้ เราเผยแพร่ชุดข้อมูลสำหรับงานชุดควบคุม 9 ชุด สำหรับรายละเอียดเกี่ยวกับวิธีสร้างชุดข้อมูล โปรดดูเอกสาร
DeepMind Control Suite เป็นเกณฑ์มาตรฐาน RL การดำเนินการต่อเนื่องแบบดั้งเดิม โดยเฉพาะอย่างยิ่ง เราขอแนะนำให้คุณทดสอบวิธีการของคุณใน DeepMind Control Suite หากคุณสนใจที่จะเปรียบเทียบกับวิธีการ RL ออฟไลน์ที่ทันสมัยอื่นๆ
หน้าแรก : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
รหัสที่มา :
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup (การกำหนดค่าเริ่มต้น)
ขนาดชุดข้อมูล :
2.12 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 40 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (1,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/ตำแหน่ง | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (2,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
ขนาดชุดข้อมูล :
36.58 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 300 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (6,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/ตำแหน่ง | เทนเซอร์ | (8,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (9,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
ขนาดชุดข้อมูล :
47.61 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 500 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (2,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/ข้อสังเกต/dist_to_target | เทนเซอร์ | (1,) | ลอย32 | |
ขั้นตอน/การสังเกต/ตำแหน่ง | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/target_position | เทนเซอร์ | (2,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
ขนาดชุดข้อมูล :
32.81 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 200 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (5,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/joint_angles | เทนเซอร์ | (7,) | ลอย32 | |
ขั้นตอน/ข้อสังเกต/เป้าหมาย | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน / การสังเกต / ตรง | เทนเซอร์ | (1,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (13,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/ฮิวแมนนอยด์_รัน
ขนาดชุดข้อมูล :
1.21 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 3,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (21,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/com_velocity | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน / การสังเกต / แขนขา | เทนเซอร์ | (12,) | ลอย32 | |
ขั้นตอน/การสังเกต/head_height | เทนเซอร์ | (1,) | ลอย32 | |
ขั้นตอน/การสังเกต/joint_angles | เทนเซอร์ | (21,) | ลอย32 | |
ขั้นตอน/การสังเกต/torso_vertical | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (27,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
ขนาดชุดข้อมูล :
385.41 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,500 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (5,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/arm_pos | เทนเซอร์ | (16,) | ลอย32 | |
ขั้นตอน/การสังเกต/arm_vel | เทนเซอร์ | (8,) | ลอย32 | |
ขั้นตอน/ข้อสังเกต/hand_pos | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/object_pos | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/object_vel | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน/การสังเกต/target_pos | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/สัมผัส | เทนเซอร์ | (5,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
ขนาดชุดข้อมูล :
385.73 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,500 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (5,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/arm_pos | เทนเซอร์ | (16,) | ลอย32 | |
ขั้นตอน/การสังเกต/arm_vel | เทนเซอร์ | (8,) | ลอย32 | |
ขั้นตอน/ข้อสังเกต/hand_pos | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/object_pos | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/object_vel | เทนเซอร์ | (3,) | ลอย32 | |
ขั้นตอน/การสังเกต/target_pos | เทนเซอร์ | (4,) | ลอย32 | |
ขั้นตอน/การสังเกต/สัมผัส | เทนเซอร์ | (5,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/วอล์คเกอร์_สแตนด์
ขนาดชุดข้อมูล :
31.78 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 200 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (6,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน / การสังเกต / ความสูง | เทนเซอร์ | (1,) | ลอย32 | |
ขั้นตอน/ข้อสังเกต/แนวทาง | เทนเซอร์ | (14,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (9,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
ขนาดชุดข้อมูล :
31.78 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 200 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (6,) | ลอย32 | |
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน / การสังเกต / ความสูง | เทนเซอร์ | (1,) | ลอย32 | |
ขั้นตอน/ข้อสังเกต/แนวทาง | เทนเซอร์ | (14,) | ลอย32 | |
ขั้นตอน / การสังเกต / ความเร็ว | เทนเซอร์ | (9,) | ลอย32 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):