- বর্ণনা :
সিমুলেটেড ফ্রাঙ্কা বিভিন্ন ম্যানিপুলেশন কাজ সম্পাদন করছে
উত্স কোড :
tfds.robotics.rtx.ManiskillDatasetConvertedExternallyToRlds
সংস্করণ :
-
0.1.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
151.05 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 30,213 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'episode_metadata': FeaturesDict({
'episode_id': Text(shape=(), dtype=string),
'file_path': Text(shape=(), dtype=string),
}),
'steps': Dataset({
'action': Tensor(shape=(7,), dtype=float32),
'discount': Scalar(shape=(), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'language_embedding': Tensor(shape=(512,), dtype=float32),
'language_instruction': Text(shape=(), dtype=string),
'observation': FeaturesDict({
'base_pose': Tensor(shape=(7,), dtype=float32),
'depth': Image(shape=(256, 256, 1), dtype=uint16),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
'state': Tensor(shape=(18,), dtype=float32),
'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32),
'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8),
'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32),
'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8),
'tcp_pose': Tensor(shape=(7,), dtype=float32),
'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16),
'wrist_image': Image(shape=(256, 256, 3), dtype=uint8),
}),
'reward': Scalar(shape=(), dtype=float32),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
episode_metadata | ফিচারসডিক্ট | |||
episode_metadata/episode_id | পাঠ্য | স্ট্রিং | পর্ব আইডি। | |
episode_metadata/file_path | পাঠ্য | স্ট্রিং | মূল ডেটা ফাইলের পথ। | |
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (৭,) | float32 | রোবট অ্যাকশনের মধ্যে রয়েছে [3x এন্ড ইফেক্টর ডেল্টা টার্গেট পজিশন, 3x এন্ড ইফেক্টর ডেল্টা টার্গেট অরিয়েন্টেশন অক্ষ-কোণ বিন্যাসে, 1x গ্রিপার টার্গেট পজিশন (দুই আঙ্গুলের জন্য নকল)]। ডেল্টা টার্গেট পজিশনের জন্য, -0.1m এর একটি রোবট মুভমেন্টের জন্য -1 ম্যাপের একটি অ্যাকশন এবং 0.1m গতিতে 1টি ম্যাপের অ্যাকশন। ডেল্টা টার্গেট ওরিয়েন্টেশনের জন্য, রোবট এক্সিকিউশনের জন্য এর এনকোড করা কোণটি [-0.1rad, 0.1rad] এর রেঞ্জে ম্যাপ করা হয়। উদাহরণস্বরূপ, [1, 0, 0] এর একটি ক্রিয়া মানে x-অক্ষ বরাবর 0.1 rad দ্বারা ঘোরানো। গ্রিপার টার্গেট পজিশনের জন্য, -1-এর অ্যাকশন মানে বন্ধ, এবং 1-এর অ্যাকশন মানে খোলা। |
পদক্ষেপ/ছাড় | স্কেলার | float32 | ডিসকাউন্ট দেওয়া হলে, ডিফল্ট 1. | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/ভাষা_এম্বেডিং | টেনসর | (512,) | float32 | কোন ভাষা এম্বেডিং. https://tfhub.dev/google/universal-sentence-encoder-large/5 দেখুন |
পদক্ষেপ/ভাষা_নির্দেশ | পাঠ্য | স্ট্রিং | ভাষার নির্দেশনা। | |
পদক্ষেপ/পর্যবেক্ষণ | ফিচারসডিক্ট | |||
পদক্ষেপ/পর্যবেক্ষণ/বেস_পোজ | টেনসর | (৭,) | float32 | বিশ্ব ফ্রেমে রোবট বেস পোজ, [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। প্রথম তিনটি মাত্রা মিটারে xyz অবস্থানের প্রতিনিধিত্ব করে। শেষ চারটি মাত্রা হল ঘূর্ণনের quaternion উপস্থাপনা। |
পদক্ষেপ/পর্যবেক্ষণ/গভীরতা | ছবি | (256, 256, 1) | uint16 | প্রধান ক্যামেরার গভীরতা পর্যবেক্ষণ। মিটারে গভীরতা পেতে গভীরতার মানকে 2**10 দ্বারা ভাগ করুন। |
পদক্ষেপ/পর্যবেক্ষণ/চিত্র | ছবি | (256, 256, 3) | uint8 | প্রধান ক্যামেরা আরজিবি পর্যবেক্ষণ। |
পদক্ষেপ/পর্যবেক্ষণ/main_camera_cam2world_gl | টেনসর | (৪, ৪) | float32 | ওপেনজিএল/ব্লেন্ডার কনভেনশনে মূল ক্যামেরা ফ্রেম থেকে ওয়ার্ল্ড ফ্রেমে রূপান্তর। |
পদক্ষেপ/পর্যবেক্ষণ/প্রধান_ক্যামেরা_বহির্ভূত_সিভি | টেনসর | (৪, ৪) | float32 | OpenCV কনভেনশনে প্রধান ক্যামেরা এক্সট্রিনসিক ম্যাট্রিক্স। |
পদক্ষেপ/পর্যবেক্ষণ/প্রধান_ক্যামেরা_ইন্ট্রিনসিক_সিভি | টেনসর | (৩, ৩) | float32 | OpenCV কনভেনশনে প্রধান ক্যামেরার অন্তর্নিহিত ম্যাট্রিক্স। |
পদক্ষেপ/পর্যবেক্ষণ/রাষ্ট্র | টেনসর | (18,) | float32 | রোবট অবস্থা, [7x রোবট জয়েন্ট অ্যাঙ্গেল, 2x গ্রিপার পজিশন, 7x রোবট জয়েন্ট অ্যাঙ্গেল বেগ, 2x গ্রিপার বেগ] নিয়ে গঠিত। রেডিয়ানে কোণ, মিটারে অবস্থান। |
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_অথবা_পার্ট_ফাইনাল_পোজ | টেনসর | (৭,) | float32 | চূড়ান্ত ভঙ্গি যার দিকে লক্ষ্যবস্তু বা বস্তুর অংশকে ম্যানিপুলেট করা দরকার, সেটি [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। ভঙ্গি বিশ্ব ফ্রেমে প্রতিনিধিত্ব করা হয়. একটি পর্ব সফল বলে বিবেচিত হয় যদি লক্ষ্য বস্তু বা বস্তুর অংশ এই ভঙ্গিতে ম্যানিপুলেট করা হয়। |
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_বা_পার্ট_ফাইনাল_পজে_ভাল | টেনসর | (৭,) | uint8 | টার্গেট_অবজেক্ট_বা_পার্ট_ফাইনাল_পোজের প্রতিটি মাত্রা একটি পরিবেশে বৈধ কিনা। 1 = বৈধ; 0 = অবৈধ (যে ক্ষেত্রে লক্ষ্য_অবজেক্ট_বা_পার্ট_ফাইনাল_পোজে সংশ্লিষ্ট মাত্রা উপেক্ষা করা উচিত)। "অবৈধ" এর অর্থ হল সংশ্লিষ্ট মাত্রায় লক্ষ্য বস্তু বা বস্তুর অংশের চূড়ান্ত ভঙ্গিতে কোনো সফলতা যাচাই করা হয়নি। |
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজ | টেনসর | (৭,) | float32 | লক্ষ্যবস্তু বা বস্তুর অংশের প্রাথমিক ভঙ্গি যা ম্যানিপুলেট করা হবে, তাতে রয়েছে [x, y, z, qw, qx, qy, qz]। ভঙ্গি বিশ্ব ফ্রেমে প্রতিনিধিত্ব করা হয়. এই ভেরিয়েবলটি লক্ষ্য বস্তু বা বস্তুর অংশ নির্দিষ্ট করতে ব্যবহৃত হয় যখন একাধিক বস্তু বা বস্তুর অংশ একটি পরিবেশে উপস্থিত থাকে |
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_অর_অংশ_প্রাথমিক_ভঙ্গি_বৈধ | টেনসর | (৭,) | uint8 | লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজের প্রতিটি মাত্রা একটি পরিবেশে বৈধ কিনা। 1 = বৈধ; 0 = অবৈধ (যে ক্ষেত্রে লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজে সংশ্লিষ্ট মাত্রা উপেক্ষা করা উচিত)। |
পদক্ষেপ/পর্যবেক্ষণ/tcp_pose | টেনসর | (৭,) | float32 | বিশ্ব ফ্রেমে রোবট টুল-সেন্টার-পয়েন্ট পোজ, [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। টুল-সেন্টার-পয়েন্ট হল দুটি গ্রিপার আঙ্গুলের মধ্যবর্তী কেন্দ্র। |
steps/observation/wrist_camera_cam2world_gl | টেনসর | (৪, ৪) | float32 | OpenGL/ব্লেন্ডার কনভেনশনে রিস্ট ক্যামেরা ফ্রেম থেকে ওয়ার্ল্ড ফ্রেমে রূপান্তর। |
পদক্ষেপ/পর্যবেক্ষণ/wrist_camera_extrinsic_cv | টেনসর | (৪, ৪) | float32 | OpenCV কনভেনশনে রিস্ট ক্যামেরা এক্সট্রিনসিক ম্যাট্রিক্স। |
পদক্ষেপ/পর্যবেক্ষণ/wrist_camera_intrinsic_cv | টেনসর | (৩, ৩) | float32 | OpenCV কনভেনশনে রিস্ট ক্যামেরা ইন্ট্রিনসিক ম্যাট্রিক্স। |
পদক্ষেপ/পর্যবেক্ষণ/কব্জি_গভীরতা | ছবি | (256, 256, 1) | uint16 | কব্জি ক্যামেরা গভীরতা পর্যবেক্ষণ। মিটারে গভীরতা পেতে গভীরতার মানকে 2**10 দ্বারা ভাগ করুন। |
পদক্ষেপ/পর্যবেক্ষণ/কব্জি_চিত্র | ছবি | (256, 256, 3) | uint8 | কব্জি ক্যামেরা আরজিবি পর্যবেক্ষণ। |
পদক্ষেপ/পুরস্কার | স্কেলার | float32 | প্রদান করা হলে পুরস্কার, ডেমোর জন্য চূড়ান্ত ধাপে 1। |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{gu2023maniskill2,
title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
booktitle={International Conference on Learning Representations},
year={2023}
}