
  • Sự miêu tả :

Tập dữ liệu SIM của một cánh tay robot duy nhất thực hiện các tác vụ trên bàn được tạo theo quy trình với lời nhắc đa phương thức, quỹ đạo hơn 600K

Tách ra Ví dụ
  • Cấu trúc tính năng :
'episode_metadata': FeaturesDict({
'action_bounds': FeaturesDict({
'high': Tensor(shape=(3,), dtype=float32),
'low': Tensor(shape=(3,), dtype=float32),
'end-effector type': string,
'failure': Scalar(shape=(), dtype=bool),
'file_path': string,
'n_objects': Scalar(shape=(), dtype=int64),
'num_steps': Scalar(shape=(), dtype=int64),
'robot_components_seg_ids': Sequence(Scalar(shape=(), dtype=int64)),
'seed': Scalar(shape=(), dtype=int64),
'success': Scalar(shape=(), dtype=bool),
'task': string,
'steps': Dataset({
'action': FeaturesDict({
'pose0_position': Tensor(shape=(3,), dtype=float32),
'pose0_rotation': Tensor(shape=(4,), dtype=float32),
'pose1_position': Tensor(shape=(3,), dtype=float32),
'pose1_rotation': Tensor(shape=(4,), dtype=float32),
'discount': Scalar(shape=(), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'multimodal_instruction': string,
'multimodal_instruction_assets': FeaturesDict({
'asset_type': Sequence(string),
'frontal_image': Sequence(Tensor(shape=(128, 256, 3), dtype=uint8)),
'frontal_segmentation': Sequence(Tensor(shape=(128, 256), dtype=uint8)),
'image': Sequence(Tensor(shape=(128, 256, 3), dtype=uint8)),
'key_name': Sequence(string),
'segmentation': Sequence(Tensor(shape=(128, 256), dtype=uint8)),
'segmentation_obj_info': Sequence({
'obj_name': Sequence(string),
'segm_id': Sequence(Scalar(shape=(), dtype=int64)),
'texture_name': Sequence(string),
'observation': FeaturesDict({
'ee': int64,
'frontal_image': Tensor(shape=(128, 256, 3), dtype=uint8),
'frontal_segmentation': Tensor(shape=(128, 256), dtype=uint8),
'image': Tensor(shape=(128, 256, 3), dtype=uint8),
'segmentation': Tensor(shape=(128, 256), dtype=uint8),
'segmentation_obj_info': FeaturesDict({
'obj_name': Sequence(string),
'segm_id': Sequence(Scalar(shape=(), dtype=int64)),
'texture_name': Sequence(string),
'reward': Scalar(shape=(), dtype=float32),
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
tập_siêu dữ liệu Tính năngDict
tập_siêu dữ liệu/action_bounds Tính năngDict
tập_metadata/action_bounds/cao Tenxơ (3,) phao32
tập_siêu dữ liệu/action_bounds/thấp Tenxơ (3,) phao32
loại tập_siêu dữ liệu/tác động cuối Tenxơ sợi dây
tập_siêu dữ liệu/lỗi Vô hướng bool
tập_siêu dữ liệu/file_path Tenxơ sợi dây
tập_siêu dữ liệu/n_object Vô hướng int64
tập_siêu dữ liệu/num_steps Vô hướng int64
tập_metadata/robot_comComponents_seg_ids Trình tự (vô hướng) (Không có,) int64
tập_siêu dữ liệu/hạt giống Vô hướng int64
tập_siêu dữ liệu/thành công Vô hướng bool
tập_siêu dữ liệu/tác vụ Tenxơ sợi dây
bước Tập dữ liệu
bước/hành động Tính năngDict
bước/hành động/pose0_position Tenxơ (3,) phao32
bước/hành động/pose0_rotation Tenxơ (4,) phao32
bước/hành động/pose1_position Tenxơ (3,) phao32
bước/hành động/pose1_rotation Tenxơ (4,) phao32
bước/giảm giá Vô hướng phao32
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/đa phương thức_instruction Tenxơ sợi dây
bước/đa phương thức_instruction_assets Tính năngDict
bước/multimodal_instruction_assets/asset_type Trình tự(Tensor) (Không có,) sợi dây
bước/multimodal_instruction_assets/frontal_image Trình tự(Tensor) (Không, 128, 256, 3) uint8
bước/multimodal_instruction_assets/frontal_segmentation Trình tự(Tensor) (Không có, 128, 256) uint8
bước/multimodal_instruction_assets/hình ảnh Trình tự(Tensor) (Không, 128, 256, 3) uint8
bước/multimodal_instruction_assets/key_name Trình tự(Tensor) (Không có,) sợi dây
bước/đa phương thức_instruction_assets/phân đoạn Trình tự(Tensor) (Không, 128, 256) uint8
bước/multimodal_instruction_assets/segmentation_obj_info Sự liên tiếp
bước/multimodal_instruction_assets/segmentation_obj_info/obj_name Trình tự(Tensor) (Không có,) sợi dây
bước/multimodal_instruction_assets/segmentation_obj_info/segm_id Trình tự (vô hướng) (Không có,) int64
bước/multimodal_instruction_assets/segmentation_obj_info/texture_name Trình tự(Tensor) (Không có,) sợi dây
bước/quan sát Tính năngDict
bước/quan sát/ee Tenxơ int64
bước/quan sát/hình ảnh trực diện Tenxơ (128, 256, 3) uint8
bước/quan sát/phân đoạn phía trước Tenxơ (128, 256) uint8
bước/quan sát/hình ảnh Tenxơ (128, 256, 3) uint8
bước/quan sát/phân đoạn Tenxơ (128, 256) uint8
bước/quan sát/phân đoạn_obj_info Tính năngDict
bước/quan sát/phân đoạn_obj_info/obj_name Trình tự(Tensor) (Không có,) sợi dây
bước/quan sát/phân đoạn_obj_info/segm_id Trình tự (vô hướng) (Không có,) int64
bước/quan sát/phân đoạn_obj_info/texture_name Trình tự(Tensor) (Không có,) sợi dây
bước/phần thưởng Vô hướng phao32
@inproceedings{jiang2023vima,  title     = {VIMA: General Robot Manipulation with Multimodal Prompts},  author    = {Yunfan Jiang and Agrim Gupta and Zichen Zhang and Guanzhi Wang and Yongqiang Dou and Yanjun Chen and Li Fei-Fei and Anima Anandkumar and Yuke Zhu and Linxi Fan}, booktitle = {Fortieth International Conference on Machine Learning},  year      = {2023}. }