- Descripción :
Los conjuntos de datos se crearon con un agente SAC capacitado en la recompensa ambiental de las tareas de locomoción de MuJoCo. Estos conjuntos de datos se utilizan en ¿Qué importa para el aprendizaje por imitación adversario? Orsini et al. 2021 .
Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.
Página de inicio : https://github.com/google-research/rlds
Código fuente :
tfds.rlds.datasets.locomotion.LocomotionVersiones :
-
1.0.0(predeterminado): versión inicial.
-
Claves supervisadas (ver documento
as_supervised):NoneFigura ( tfds.show_examples ): no compatible.
Citación :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (configuración predeterminada)
Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para pasos de 1 millón para Ant.
Tamaño de descarga :
6.49 MiBTamaño del conjunto de datos :
23.02 MiBAlmacenamiento en caché automático ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 50 |
- Estructura de características :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| pasos | Conjunto de datos | |||
| pasos/acción | Tensor | (8,) | flotador32 | |
| pasos/descuento | Tensor | flotador32 | ||
| pasos/es_primero | Tensor | booleano | ||
| pasos/es_último | Tensor | booleano | ||
| pasos/es_terminal | Tensor | booleano | ||
| pasos/observación | Tensor | (111,) | flotador32 | |
| pasos/recompensa | Tensor | flotador32 |
- Ejemplos ( tfds.as_dataframe ):
locomoción/hopper_sac_1M_single_policy_stochastic
Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Hopper.
Tamaño de descarga :
2.26 MiBTamaño del conjunto de datos :
2.62 MiBAlmacenamiento en caché automático ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 50 |
- Estructura de características :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| pasos | Conjunto de datos | |||
| pasos/acción | Tensor | (3,) | flotador32 | |
| pasos/descuento | Tensor | flotador32 | ||
| pasos/es_primero | Tensor | booleano | ||
| pasos/es_último | Tensor | booleano | ||
| pasos/es_terminal | Tensor | booleano | ||
| pasos/observación | Tensor | (11,) | flotador32 | |
| pasos/recompensa | Tensor | flotador32 |
- Ejemplos ( tfds.as_dataframe ):
locomoción/halfcheetah_sac_1M_single_policy_stochastic
Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para pasos de 1 millón para HalfCheetah.
Tamaño de descarga :
4.49 MiBTamaño del conjunto de datos :
4.93 MiBAlmacenamiento en caché automático ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 50 |
- Estructura de características :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| pasos | Conjunto de datos | |||
| pasos/acción | Tensor | (6,) | flotador32 | |
| pasos/descuento | Tensor | flotador32 | ||
| pasos/es_primero | Tensor | booleano | ||
| pasos/es_último | Tensor | booleano | ||
| pasos/es_terminal | Tensor | booleano | ||
| pasos/observación | Tensor | (17,) | flotador32 | |
| pasos/recompensa | Tensor | flotador32 |
- Ejemplos ( tfds.as_dataframe ):
locomoción/walker2d_sac_1M_single_policy_stochastic
Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para pasos de 1 millón para Walker2d.
Tamaño de descarga :
4.35 MiBTamaño del conjunto de datos :
4.91 MiBAlmacenamiento en caché automático ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 50 |
- Estructura de características :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| pasos | Conjunto de datos | |||
| pasos/acción | Tensor | (6,) | flotador32 | |
| pasos/descuento | Tensor | flotador32 | ||
| pasos/es_primero | Tensor | booleano | ||
| pasos/es_último | Tensor | booleano | ||
| pasos/es_terminal | Tensor | booleano | ||
| pasos/observación | Tensor | (17,) | flotador32 | |
| pasos/recompensa | Tensor | flotador32 |
- Ejemplos ( tfds.as_dataframe ):
locomoción/humanoid_sac_15M_single_policy_stochastic
Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 15 millones de pasos para Humanoid.
Tamaño de descarga :
192.78 MiBTamaño del conjunto de datos :
300.94 MiBAlmacenamiento en caché automático ( documentación ): No
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 200 |
- Estructura de características :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| pasos | Conjunto de datos | |||
| pasos/acción | Tensor | (17,) | flotador32 | |
| pasos/descuento | Tensor | flotador32 | ||
| pasos/es_primero | Tensor | booleano | ||
| pasos/es_último | Tensor | booleano | ||
| pasos/es_terminal | Tensor | booleano | ||
| pasos/observación | Tensor | (376,) | flotador32 | |
| pasos/recompensa | Tensor | flotador32 |
- Ejemplos ( tfds.as_dataframe ):