- תיאור :
D4RL הוא אמת מידה בקוד פתוח ללמידת חיזוק לא מקוון. הוא מספק סביבות סטנדרטיות ומערכי נתונים עבור אלגוריתמי הדרכה ומידוד.
מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.
קוד מקור :
tfds.d4rl.d4rl_adroit_pen.D4rlAdroitPenגרסאות :
-
1.0.0: שחרור ראשוני. -
1.1.0(ברירת מחדל): נוסף is_last.
-
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
ציטוט :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_pen/v0-human (תצורת ברירת המחדל)
תיאור תצורה : ראה פרטים נוספים על המשימה וגרסאותיה ב- https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
גודל הורדה :
1.94 MiBגודל מערך נתונים :
2.52 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 50 |
- מבנה תכונה :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| צעדים | מערך נתונים | |||
| צעדים/פעולה | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/הנחה | מוֹתֵחַ | לצוף32 | ||
| שלבים/מידע | FeaturesDict | |||
| צעדים/מידע/qpos | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/מידע/qvel | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
| צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
| steps/is_terminal | מוֹתֵחַ | bool | ||
| צעדים/תצפית | מוֹתֵחַ | (45,) | לצוף32 | |
| צעדים/פרס | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
d4rl_adroit_pen/v0-cloned
תיאור תצורה : ראה פרטים נוספים על המשימה וגרסאותיה ב- https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
גודל הורדה :
292.85 MiBגודל מערך נתונים :
252.55 MiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 5,023 |
- מבנה תכונה :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float64),
'qvel': Tensor(shape=(30,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float64),
'reward': float64,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| צעדים | מערך נתונים | |||
| צעדים/פעולה | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/הנחה | מוֹתֵחַ | לצוף64 | ||
| שלבים/מידע | FeaturesDict | |||
| צעדים/מידע/qpos | מוֹתֵחַ | (30,) | לצוף64 | |
| צעדים/מידע/qvel | מוֹתֵחַ | (30,) | לצוף64 | |
| צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
| צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
| steps/is_terminal | מוֹתֵחַ | bool | ||
| צעדים/תצפית | מוֹתֵחַ | (45,) | לצוף64 | |
| צעדים/פרס | מוֹתֵחַ | לצוף64 |
- דוגמאות ( tfds.as_dataframe ):
d4rl_adroit_pen/v0-expert
תיאור תצורה : ראה פרטים נוספים על המשימה וגרסאותיה ב- https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
גודל הורדה :
250.13 MiBגודל ערכת נתונים :
344.41 MiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 5,000 |
- מבנה תכונה :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(24,), dtype=float32),
'action_mean': Tensor(shape=(24,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| צעדים | מערך נתונים | |||
| צעדים/פעולה | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/הנחה | מוֹתֵחַ | לצוף32 | ||
| שלבים/מידע | FeaturesDict | |||
| steps/infos/action_logstd | מוֹתֵחַ | (24,) | לצוף32 | |
| steps/infos/action_mean | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/מידע/qpos | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/מידע/qvel | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
| צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
| steps/is_terminal | מוֹתֵחַ | bool | ||
| צעדים/תצפית | מוֹתֵחַ | (45,) | לצוף32 | |
| צעדים/פרס | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-human
תיאור תצורה : ראה פרטים נוספים על המשימה וגרסאותיה ב- https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
גודל הורדה :
1.95 MiBגודל מערך נתונים :
2.60 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 25 |
- מבנה תכונה :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| צעדים | מערך נתונים | |||
| צעדים/פעולה | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/הנחה | מוֹתֵחַ | לצוף32 | ||
| שלבים/מידע | FeaturesDict | |||
| steps/infos/desired_orien | מוֹתֵחַ | (4,) | לצוף32 | |
| צעדים/מידע/qpos | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/מידע/qvel | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
| צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
| steps/is_terminal | מוֹתֵחַ | bool | ||
| צעדים/תצפית | מוֹתֵחַ | (45,) | לצוף32 | |
| צעדים/פרס | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-cloned
תיאור תצורה : ראה פרטים נוספים על המשימה וגרסאותיה ב- https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
גודל הורדה :
147.89 MiBגודל מערך נתונים :
1.43 GiBשמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 3,755 |
- מבנה תכונה :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(45, 256), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(256, 24), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| אַלגוֹרִיתְם | מוֹתֵחַ | חוּט | ||
| מְדִינִיוּת | FeaturesDict | |||
| מדיניות/fc0 | FeaturesDict | |||
| policy/fc0/bias | מוֹתֵחַ | (256,) | לצוף32 | |
| policy/fc0/weight | מוֹתֵחַ | (45, 256) | לצוף32 | |
| מדיניות/fc1 | FeaturesDict | |||
| policy/fc1/bias | מוֹתֵחַ | (256,) | לצוף32 | |
| policy/fc1/weight | מוֹתֵחַ | (256, 256) | לצוף32 | |
| policy/last_fc | FeaturesDict | |||
| policy/last_fc/bias | מוֹתֵחַ | (24,) | לצוף32 | |
| policy/last_fc/weight | מוֹתֵחַ | (256, 24) | לצוף32 | |
| מדיניות/אי-לינאריות | מוֹתֵחַ | חוּט | ||
| מדיניות/פלט_הפצה | מוֹתֵחַ | חוּט | ||
| צעדים | מערך נתונים | |||
| צעדים/פעולה | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/הנחה | מוֹתֵחַ | לצוף32 | ||
| שלבים/מידע | FeaturesDict | |||
| steps/infos/desired_orien | מוֹתֵחַ | (4,) | לצוף32 | |
| צעדים/מידע/qpos | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/מידע/qvel | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
| צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
| steps/is_terminal | מוֹתֵחַ | bool | ||
| צעדים/תצפית | מוֹתֵחַ | (45,) | לצוף32 | |
| צעדים/פרס | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-expert
גודל הורדה :
249.90 MiBגודל מערך נתונים :
548.47 MiBשמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 5,000 |
- מבנה תכונה :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(64,), dtype=float32),
'weight': Tensor(shape=(64, 45), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(64,), dtype=float32),
'weight': Tensor(shape=(64, 64), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(24, 64), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(24, 64), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(24,), dtype=float32),
'action_mean': Tensor(shape=(24,), dtype=float32),
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| אַלגוֹרִיתְם | מוֹתֵחַ | חוּט | ||
| מְדִינִיוּת | FeaturesDict | |||
| מדיניות/fc0 | FeaturesDict | |||
| policy/fc0/bias | מוֹתֵחַ | (64,) | לצוף32 | |
| policy/fc0/weight | מוֹתֵחַ | (64, 45) | לצוף32 | |
| מדיניות/fc1 | FeaturesDict | |||
| policy/fc1/bias | מוֹתֵחַ | (64,) | לצוף32 | |
| policy/fc1/weight | מוֹתֵחַ | (64, 64) | לצוף32 | |
| policy/last_fc | FeaturesDict | |||
| policy/last_fc/bias | מוֹתֵחַ | (24,) | לצוף32 | |
| policy/last_fc/weight | מוֹתֵחַ | (24, 64) | לצוף32 | |
| policy/last_fc_log_std | FeaturesDict | |||
| policy/last_fc_log_std/bias | מוֹתֵחַ | (24,) | לצוף32 | |
| policy/last_fc_log_std/weight | מוֹתֵחַ | (24, 64) | לצוף32 | |
| מדיניות/אי-לינאריות | מוֹתֵחַ | חוּט | ||
| מדיניות/פלט_הפצה | מוֹתֵחַ | חוּט | ||
| צעדים | מערך נתונים | |||
| צעדים/פעולה | מוֹתֵחַ | (24,) | לצוף32 | |
| צעדים/הנחה | מוֹתֵחַ | לצוף32 | ||
| שלבים/מידע | FeaturesDict | |||
| steps/infos/action_log_std | מוֹתֵחַ | (24,) | לצוף32 | |
| steps/infos/action_mean | מוֹתֵחַ | (24,) | לצוף32 | |
| steps/infos/desired_orien | מוֹתֵחַ | (4,) | לצוף32 | |
| צעדים/מידע/qpos | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/מידע/qvel | מוֹתֵחַ | (30,) | לצוף32 | |
| צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
| צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
| steps/is_terminal | מוֹתֵחַ | bool | ||
| צעדים/תצפית | מוֹתֵחַ | (45,) | לצוף32 | |
| צעדים/פרס | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):