- विवरण :
D4RL ऑफ़लाइन सुदृढीकरण सीखने के लिए एक ओपन-सोर्स बेंचमार्क है। यह प्रशिक्षण और बेंचमार्किंग एल्गोरिदम के लिए मानकीकृत वातावरण और डेटासेट प्रदान करता है।
डेटासेट चरणों और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।
विन्यास विवरण : https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym में कार्य और उसके संस्करणों के बारे में अधिक विवरण देखें
स्रोत कोड :
tfds.d4rl.d4rl_mujoco_hopper.D4rlMujocoHopper
संस्करण :
-
1.0.0
: प्रारंभिक रिलीज। -
1.1.0
: जोड़ा गया is_last. -
1.2.0
(डिफ़ॉल्ट): अगले अवलोकन को ध्यान में रखते हुए अपडेट किया गया।
-
पर्यवेक्षित कुंजी (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_hopper/v0-विशेषज्ञ (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड आकार :
51.56 MiB
डेटासेट का आकार :
64.10 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,029 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-मध्यम
डाउनलोड आकार :
51.74 MiB
डेटासेट का आकार :
64.68 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 3,064 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-मध्यम-विशेषज्ञ
डाउनलोड आकार :
62.01 MiB
डेटासेट का आकार :
77.25 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,277 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-मिश्रित
डाउनलोड आकार :
10.48 MiB
डेटासेट का आकार :
13.15 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,250 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-यादृच्छिक
डाउनलोड आकार :
51.83 MiB
डेटासेट का आकार :
66.06 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 8,793 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-विशेषज्ञ
डाउनलोड साइज :
93.19 MiB
डेटासेट का आकार :
608.03 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,836 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
नीति | विशेषताएंडिक्ट | |||
नीति/एफसी0 | विशेषताएंडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc0/वजन | टेन्सर | (256, 11) | tf.float32 | |
नीति/fc1 | विशेषताएंडिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | tf.float32 | |
नीति/last_fc | विशेषताएंडिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/last_fc_log_std | विशेषताएंडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc_log_std/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/गैर-रैखिकता | टेन्सर | tf.स्ट्रिंग | ||
नीति/आउटपुट_वितरण | टेन्सर | tf.स्ट्रिंग | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float32 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float32 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float32 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-माध्यम
डाउनलोड साइज :
92.03 MiB
डेटासेट का आकार :
1.78 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 6,328 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
नीति | विशेषताएंडिक्ट | |||
नीति/एफसी0 | विशेषताएंडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc0/वजन | टेन्सर | (256, 11) | tf.float32 | |
नीति/fc1 | विशेषताएंडिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | tf.float32 | |
नीति/last_fc | विशेषताएंडिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/last_fc_log_std | विशेषताएंडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc_log_std/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/गैर-रैखिकता | टेन्सर | tf.स्ट्रिंग | ||
नीति/आउटपुट_वितरण | टेन्सर | tf.स्ट्रिंग | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float32 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float32 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float32 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-मध्यम-विशेषज्ञ
डाउनलोड आकार :
184.59 MiB
डेटासेट का आकार :
230.24 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 8,163 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float32 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float32 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float32 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-मध्यम-रीप्ले
डाउनलोड आकार :
55.65 MiB
डेटासेट का आकार :
34.78 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,151 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float64 | |
कदम/छूट | टेन्सर | tf.float64 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float64 | |
कदम/इनाम | टेन्सर | tf.float64 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-फुल-रीप्ले
डाउनलोड आकार :
183.32 MiB
डेटासेट का आकार :
114.78 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,907 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float64 | |
कदम/छूट | टेन्सर | tf.float64 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float64 | |
कदम/इनाम | टेन्सर | tf.float64 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-यादृच्छिक
डाउनलोड साइज :
91.11 MiB
डेटासेट का आकार :
130.73 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 45,265 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float32 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float32 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float32 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-विशेषज्ञ
डाउनलोड आकार :
145.37 MiB
डेटासेट का आकार :
390.40 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,028 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
नीति | विशेषताएंडिक्ट | |||
नीति/एफसी0 | विशेषताएंडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc0/वजन | टेन्सर | (256, 11) | tf.float32 | |
नीति/fc1 | विशेषताएंडिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | tf.float32 | |
नीति/last_fc | विशेषताएंडिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/last_fc_log_std | विशेषताएंडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc_log_std/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/गैर-रैखिकता | टेन्सर | tf.स्ट्रिंग | ||
नीति/आउटपुट_वितरण | टेन्सर | tf.स्ट्रिंग | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-पूर्ण-रीप्ले
डाउनलोड आकार :
179.29 MiB
डेटासेट का आकार :
115.04 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 3,515 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-माध्यम
डाउनलोड आकार :
145.68 MiB
डेटासेट का आकार :
702.57 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,187 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
नीति | विशेषताएंडिक्ट | |||
नीति/एफसी0 | विशेषताएंडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc0/वजन | टेन्सर | (256, 11) | tf.float32 | |
नीति/fc1 | विशेषताएंडिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | tf.float32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | tf.float32 | |
नीति/last_fc | विशेषताएंडिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/last_fc_log_std | विशेषताएंडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (3,) | tf.float32 | |
नीति/last_fc_log_std/वजन | टेन्सर | (3, 256) | tf.float32 | |
नीति/गैर-रैखिकता | टेन्सर | tf.स्ट्रिंग | ||
नीति/आउटपुट_वितरण | टेन्सर | tf.स्ट्रिंग | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-मध्यम-विशेषज्ञ
डाउनलोड आकार :
290.43 MiB
डेटासेट का आकार :
228.28 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 3,214 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-मध्यम-रीप्ले
डाउनलोड आकार :
72.34 MiB
डेटासेट का आकार :
46.51 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,041 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कलन विधि | टेन्सर | tf.स्ट्रिंग | ||
यात्रा | टेन्सर | tf.int32 | ||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-यादृच्छिक
डाउनलोड साइज :
145.46 MiB
डेटासेट का आकार :
130.72 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 45,240 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
कदम | डेटासेट | |||
कदम / क्रिया | टेन्सर | (3,) | tf.float32 | |
कदम/छूट | टेन्सर | tf.float32 | ||
कदम/जानकारी | विशेषताएंडिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | tf.float64 | ||
कदम/जानकारी/qpos | टेन्सर | (6,) | tf.float64 | |
कदम/जानकारी/qvel | टेन्सर | (6,) | tf.float64 | |
चरण/is_first | टेन्सर | tf.बूल | ||
चरण/is_last | टेन्सर | tf.बूल | ||
चरण/is_terminal | टेन्सर | tf.बूल | ||
कदम/अवलोकन | टेन्सर | (1 1,) | tf.float32 | |
कदम/इनाम | टेन्सर | tf.float32 |
- उदाहरण ( tfds.as_dataframe ):