vima_परिवर्तित_बाह्य_से_rlds

  • विवरण :

मल्टीमॉडल प्रॉम्प्ट, 600K+ प्रक्षेपवक्र के साथ प्रक्रियात्मक रूप से उत्पन्न टेबलटॉप कार्यों को निष्पादित करने वाले एकल रोबोट आर्म का सिम डेटासेट

विभाजित करना उदाहरण
  • फ़ीचर संरचना :
FeaturesDict({
   
'episode_metadata': FeaturesDict({
       
'action_bounds': FeaturesDict({
           
'high': Tensor(shape=(3,), dtype=float32),
           
'low': Tensor(shape=(3,), dtype=float32),
       
}),
       
'end-effector type': string,
       
'failure': Scalar(shape=(), dtype=bool),
       
'file_path': string,
       
'n_objects': Scalar(shape=(), dtype=int64),
       
'num_steps': Scalar(shape=(), dtype=int64),
       
'robot_components_seg_ids': Sequence(Scalar(shape=(), dtype=int64)),
       
'seed': Scalar(shape=(), dtype=int64),
       
'success': Scalar(shape=(), dtype=bool),
       
'task': string,
   
}),
   
'steps': Dataset({
       
'action': FeaturesDict({
           
'pose0_position': Tensor(shape=(3,), dtype=float32),
           
'pose0_rotation': Tensor(shape=(4,), dtype=float32),
           
'pose1_position': Tensor(shape=(3,), dtype=float32),
           
'pose1_rotation': Tensor(shape=(4,), dtype=float32),
       
}),
       
'discount': Scalar(shape=(), dtype=float32),
       
'is_first': bool,
       
'is_last': bool,
       
'is_terminal': bool,
       
'multimodal_instruction': string,
       
'multimodal_instruction_assets': FeaturesDict({
           
'asset_type': Sequence(string),
           
'frontal_image': Sequence(Tensor(shape=(128, 256, 3), dtype=uint8)),
           
'frontal_segmentation': Sequence(Tensor(shape=(128, 256), dtype=uint8)),
           
'image': Sequence(Tensor(shape=(128, 256, 3), dtype=uint8)),
           
'key_name': Sequence(string),
           
'segmentation': Sequence(Tensor(shape=(128, 256), dtype=uint8)),
           
'segmentation_obj_info': Sequence({
               
'obj_name': Sequence(string),
               
'segm_id': Sequence(Scalar(shape=(), dtype=int64)),
               
'texture_name': Sequence(string),
           
}),
       
}),
       
'observation': FeaturesDict({
           
'ee': int64,
           
'frontal_image': Tensor(shape=(128, 256, 3), dtype=uint8),
           
'frontal_segmentation': Tensor(shape=(128, 256), dtype=uint8),
           
'image': Tensor(shape=(128, 256, 3), dtype=uint8),
           
'segmentation': Tensor(shape=(128, 256), dtype=uint8),
           
'segmentation_obj_info': FeaturesDict({
               
'obj_name': Sequence(string),
               
'segm_id': Sequence(Scalar(shape=(), dtype=int64)),
               
'texture_name': Sequence(string),
           
}),
       
}),
       
'reward': Scalar(shape=(), dtype=float32),
   
}),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
एपिसोड_मेटाडेटा फीचर्सडिक्ट
एपिसोड_मेटाडेटा/एक्शन_बाउंड्स फीचर्सडिक्ट
एपिसोड_मेटाडेटा/एक्शन_बाउंड्स/हाई टेन्सर (3,) फ्लोट32
एपिसोड_मेटाडेटा/एक्शन_बाउंड्स/लो टेन्सर (3,) फ्लोट32
एपिसोड_मेटाडेटा/एंड-इफ़ेक्टर प्रकार टेन्सर डोरी
एपिसोड_मेटाडेटा/विफलता अदिश बूल
एपिसोड_मेटाडेटा/फ़ाइल_पथ टेन्सर डोरी
एपिसोड_मेटाडेटा/एन_ऑब्जेक्ट्स अदिश int64
एपिसोड_मेटाडेटा/संख्या_स्टेप्स अदिश int64
एपिसोड_मेटाडेटा/रोबोट_घटक_seg_ids अनुक्रम(अदिश) (कोई नहीं,) int64
एपिसोड_मेटाडेटा/बीज अदिश int64
एपिसोड_मेटाडेटा/सफलता अदिश बूल
एपिसोड_मेटाडेटा/कार्य टेन्सर डोरी
कदम डेटासेट
कदम/कार्रवाई फीचर्सडिक्ट
चरण/कार्रवाई/pose0_position टेन्सर (3,) फ्लोट32
चरण/क्रिया/pose0_rotation टेन्सर (4,) फ्लोट32
चरण/क्रिया/pose1_position टेन्सर (3,) फ्लोट32
चरण/क्रिया/pose1_rotation टेन्सर (4,) फ्लोट32
कदम/छूट अदिश फ्लोट32
चरण/पहला है टेन्सर बूल
चरण/अंतिम है टेन्सर बूल
चरण/is_terminal टेन्सर बूल
चरण/मल्टीमॉडल_निर्देश टेन्सर डोरी
चरण/मल्टीमॉडल_निर्देश_परिसंपत्तियाँ फीचर्सडिक्ट
चरण/मल्टीमॉडल_निर्देश_संपत्ति/परिसंपत्ति_प्रकार अनुक्रम (टेंसर) (कोई नहीं,) डोरी
चरण/मल्टीमॉडल_निर्देश_संपत्ति/फ्रंटल_इमेज अनुक्रम (टेंसर) (कोई नहीं, 128, 256, 3) uint8
चरण/मल्टीमॉडल_इंस्ट्रक्शन_एसेट्स/फ्रंटल_सेगमेंटेशन अनुक्रम (टेंसर) (कोई नहीं, 128, 256) uint8
चरण/मल्टीमॉडल_निर्देश_संपत्ति/छवि अनुक्रम (टेंसर) (कोई नहीं, 128, 256, 3) uint8
चरण/मल्टीमॉडल_निर्देश_संपत्ति/कुंजी_नाम अनुक्रम (टेंसर) (कोई नहीं,) डोरी
चरण/मल्टीमॉडल_निर्देश_संपत्ति/विभाजन अनुक्रम (टेंसर) (कोई नहीं, 128, 256) uint8
चरण/मल्टीमॉडल_निर्देश_संपत्ति/सेगमेंटेशन_ओबीजे_जानकारी अनुक्रम
चरण/मल्टीमॉडल_निर्देश_संपत्ति/सेगमेंटेशन_ओबीजे_जानकारी/ओबीजे_नाम अनुक्रम (टेंसर) (कोई नहीं,) डोरी
चरण/मल्टीमॉडल_निर्देश_परिसंपत्तियाँ/विभाजन_obj_info/segm_id अनुक्रम(अदिश) (कोई नहीं,) int64
चरण/मल्टीमॉडल_निर्देश_संपत्ति/सेगमेंटेशन_ओबीजे_जानकारी/बनावट_नाम अनुक्रम (टेंसर) (कोई नहीं,) डोरी
चरण/अवलोकन फीचर्सडिक्ट
चरण/अवलोकन/ई.ई टेन्सर int64
चरण/अवलोकन/फ्रंटल_इमेज टेन्सर (128,256,3) uint8
चरण/अवलोकन/फ्रंटल_सेगमेंटेशन टेन्सर (128,256) uint8
चरण/अवलोकन/छवि टेन्सर (128,256,3) uint8
चरण/अवलोकन/विभाजन टेन्सर (128,256) uint8
चरण/अवलोकन/विभाजन_obj_info फीचर्सडिक्ट
चरण/अवलोकन/विभाजन_obj_info/obj_name अनुक्रम (टेंसर) (कोई नहीं,) डोरी
चरण/अवलोकन/विभाजन_obj_info/segm_id अनुक्रम(अदिश) (कोई नहीं,) int64
चरण/अवलोकन/सेगमेंटेशन_ओबीजे_जानकारी/बनावट_नाम अनुक्रम (टेंसर) (कोई नहीं,) डोरी
कदम/इनाम अदिश फ्लोट32
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ): गुम है।

  • उद्धरण :

@inproceedings{jiang2023vima,  title     = {VIMA: General Robot Manipulation with Multimodal Prompts},  author    = {Yunfan Jiang and Agrim Gupta and Zichen Zhang and Guanzhi Wang and Yongqiang Dou and Yanjun Chen and Li Fei-Fei and Anima Anandkumar and Yuke Zhu and Linxi Fan}, booktitle = {Fortieth International Conference on Machine Learning},  year      = {2023}. }