- คำอธิบาย :
จำลอง Franka ทำหน้าที่จัดการต่างๆ
หน้าแรก : https://github.com/haosulab/ManiSkill2
ซอร์สโค้ด :
tfds.robotics.rtx.ManiskillDatasetConvertedExternallyToRlds
รุ่น :
-
0.1.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
151.05 GiB
แคชอัตโนมัติ ( เอกสาร ): No
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 30,213 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'episode_metadata': FeaturesDict({
'episode_id': Text(shape=(), dtype=string),
'file_path': Text(shape=(), dtype=string),
}),
'steps': Dataset({
'action': Tensor(shape=(7,), dtype=float32),
'discount': Scalar(shape=(), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'language_embedding': Tensor(shape=(512,), dtype=float32),
'language_instruction': Text(shape=(), dtype=string),
'observation': FeaturesDict({
'base_pose': Tensor(shape=(7,), dtype=float32),
'depth': Image(shape=(256, 256, 1), dtype=uint16),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
'state': Tensor(shape=(18,), dtype=float32),
'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32),
'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8),
'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32),
'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8),
'tcp_pose': Tensor(shape=(7,), dtype=float32),
'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16),
'wrist_image': Image(shape=(256, 256, 3), dtype=uint8),
}),
'reward': Scalar(shape=(), dtype=float32),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_ข้อมูลเมตา | คุณสมบัติDict | |||
ตอนที่_ข้อมูลเมตา/episode_id | ข้อความ | เชือก | รหัสตอน | |
ตอนที่_metadata/file_path | ข้อความ | เชือก | เส้นทางไปยังไฟล์ข้อมูลต้นฉบับ | |
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | (7,) | ลอย32 | การทำงานของหุ่นยนต์ ประกอบด้วย [ตำแหน่งเป้าหมายเดลต้าเอฟเฟกต์ปลายเอฟเฟกต์ 3x, การวางแนวเป้าหมายเดลต้าเอฟเฟกต์ปลายเอฟเฟกต์ 3x ในรูปแบบมุมแกน, ตำแหน่งเป้าหมายกริปเปอร์ 1x (เลียนแบบสำหรับสองนิ้ว)] สำหรับตำแหน่งเป้าหมายเดลต้า การกระทำของ -1 แผนที่ต่อการเคลื่อนที่ของหุ่นยนต์ -0.1m และการกระทำของ 1 แผนที่ต่อการเคลื่อนที่ 0.1m สำหรับการวางแนวเป้าหมายเดลต้า มุมที่เข้ารหัสของมันจะถูกแมปกับช่วง [-0.1rad, 0.1rad] สำหรับการทำงานของหุ่นยนต์ ตัวอย่างเช่น การกระทำของ [1, 0, 0] หมายถึงการหมุนตามแกน x ด้วย 0.1 rad สำหรับตำแหน่งเป้าหมายของมือจับ การกระทำของ -1 หมายถึงปิด และการกระทำของ 1 หมายถึงเปิด |
ขั้นตอน/ส่วนลด | สเกลาร์ | ลอย32 | ส่วนลดหากมีให้ ค่าเริ่มต้นคือ 1 | |
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ภาษา_embedding | เทนเซอร์ | (512,) | ลอย32 | การฝังภาษาโคน่า ดู https://tfhub.dev/google/universal-sentence-encoder-large/5 |
ขั้นตอน/Language_instruction | ข้อความ | เชือก | การสอนภาษา. | |
ขั้นตอน/การสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/base_pose | เทนเซอร์ | (7,) | ลอย32 | ท่าฐานหุ่นยนต์ในกรอบโลก ประกอบด้วย [x, y, z, qw, qx, qy, qz] สามมิติแรกแสดงถึงตำแหน่ง xyz มีหน่วยเป็นเมตร สี่มิติสุดท้ายคือการแสดงการหมุนแบบควอเทอร์เนียน |
ขั้นตอน/การสังเกต/ความลึก | ภาพ | (256, 256, 1) | uint16 | กล้องหลัก การสังเกตความลึก หารค่าความลึกด้วย 2**10 เพื่อให้ได้ความลึกเป็นเมตร |
ขั้นตอน/การสังเกต/ภาพ | ภาพ | (256, 256, 3) | uint8 | การสังเกต RGB ของกล้องหลัก |
ขั้นตอน/ข้อสังเกต/main_camera_cam2world_gl | เทนเซอร์ | (4, 4) | ลอย32 | การแปลงจากเฟรมกล้องหลักไปเป็นเฟรมโลกในรูปแบบ OpenGL/Blender |
ขั้นตอน/การสังเกต/main_cam_extrinsic_cv | เทนเซอร์ | (4, 4) | ลอย32 | เมทริกซ์ภายนอกของกล้องหลักในรูปแบบ OpenCV |
ขั้นตอน/การสังเกต/main_camera_intrinsic_cv | เทนเซอร์ | (3, 3) | ลอย32 | เมทริกซ์ภายในของกล้องหลักในรูปแบบ OpenCV |
ขั้นตอน/การสังเกต/สถานะ | เทนเซอร์ | (18,) | ลอย32 | สถานะของหุ่นยนต์ประกอบด้วย [7x มุมข้อต่อของหุ่นยนต์, ตำแหน่งมือจับ 2x, ความเร็วมุมของข้อต่อหุ่นยนต์ 7x, ความเร็วของมือจับ 2x] มุมเป็นเรเดียน ตำแหน่งเป็นเมตร |
ขั้นตอน/การสังเกต/target_object_or_part_final_pose | เทนเซอร์ | (7,) | ลอย32 | ท่าสุดท้ายที่วัตถุเป้าหมายหรือส่วนของวัตถุจำเป็นต้องได้รับการจัดการ ประกอบด้วย [x, y, z, qw, qx, qy, qz] ท่าทางจะแสดงอยู่ในกรอบโลก ตอนหนึ่งจะถือว่าประสบความสำเร็จหากวัตถุเป้าหมายหรือส่วนของวัตถุถูกปรับเปลี่ยนในท่านี้ |
ขั้นตอน/การสังเกต/target_object_or_part_final_pose_valid | เทนเซอร์ | (7,) | uint8 | แต่ละมิติของ target_object_or_part_final_pose ถูกต้องในสภาพแวดล้อมหรือไม่ 1 = ถูกต้อง; 0 = ไม่ถูกต้อง (ในกรณีนี้ควรละเว้นมิติที่เกี่ยวข้องใน target_object_or_part_final_pose) "ไม่ถูกต้อง" หมายความว่าไม่มีการตรวจสอบความสำเร็จในท่าทางสุดท้ายของวัตถุเป้าหมายหรือส่วนของวัตถุในมิติที่เกี่ยวข้อง |
ขั้นตอน/การสังเกต/target_object_or_part_initial_pose | เทนเซอร์ | (7,) | ลอย32 | ท่าทางเริ่มต้นของวัตถุเป้าหมายหรือส่วนของวัตถุที่จะจัดการ ประกอบด้วย [x, y, z, qw, qx, qy, qz] ท่าทางจะแสดงอยู่ในกรอบโลก ตัวแปรนี้ใช้เพื่อระบุออบเจ็กต์เป้าหมายหรือส่วนของออบเจ็กต์เมื่อมีออบเจ็กต์หรือส่วนของออบเจ็กต์หลายรายการในสภาพแวดล้อม |
ขั้นตอน/การสังเกต/target_object_or_part_initial_pose_valid | เทนเซอร์ | (7,) | uint8 | แต่ละมิติของ target_object_or_part_initial_pose ถูกต้องในสภาพแวดล้อมหรือไม่ 1 = ถูกต้อง; 0 = ไม่ถูกต้อง (ซึ่งในกรณีนี้ควรละเว้นมิติที่เกี่ยวข้องใน target_object_or_part_initial_pose) |
ขั้นตอน/การสังเกต/tcp_pose | เทนเซอร์ | (7,) | ลอย32 | ท่าจุดศูนย์กลางเครื่องมือหุ่นยนต์ในกรอบโลก ประกอบด้วย [x, y, z, qw, qx, qy, qz] จุดศูนย์กลางเครื่องมือคือจุดศูนย์กลางระหว่างนิ้วจับทั้งสองนิ้ว |
ขั้นตอน/การสังเกต/wrist_camera_cam2world_gl | เทนเซอร์ | (4, 4) | ลอย32 | การเปลี่ยนแปลงจากกรอบกล้องที่ข้อมือไปเป็นกรอบโลกในรูปแบบ OpenGL/Blender |
ขั้นตอน/การสังเกต/ข้อมือ_กล้อง_extrinsic_cv | เทนเซอร์ | (4, 4) | ลอย32 | เมทริกซ์ภายนอกของกล้องข้อมือในรูปแบบ OpenCV |
ขั้นตอน/การสังเกต/wrist_camera_intrinsic_cv | เทนเซอร์ | (3, 3) | ลอย32 | เมทริกซ์ภายในของกล้องข้อมือในรูปแบบ OpenCV |
ขั้นตอน/การสังเกต/ข้อมือ_ความลึก | ภาพ | (256, 256, 1) | uint16 | กล้องข้อมือ การสังเกตความลึก หารค่าความลึกด้วย 2**10 เพื่อให้ได้ความลึกเป็นเมตร |
ขั้นตอน/การสังเกต/wrist_image | ภาพ | (256, 256, 3) | uint8 | การสังเกต RGB ของกล้องข้อมือ |
ขั้นตอน/รางวัล | สเกลาร์ | ลอย32 | รางวัลหากมีให้ 1 ในขั้นตอนสุดท้ายสำหรับการสาธิต |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{gu2023maniskill2,
title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
booktitle={International Conference on Learning Representations},
year={2023}
}