- Descrição :
Os conjuntos de dados foram criados com um agente SAC treinado na recompensa ambiental das tarefas de locomoção do MuJoCo. Esses conjuntos de dados são usados em What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .
Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.
Página inicial : https://github.com/google-research/rlds
Código fonte :
tfds.rlds.datasets.locomotion.Locomotion
Versões :
-
1.0.0
(padrão): versão inicial.
-
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomoção/ant_sac_1M_single_policy_stochastic (configuração padrão)
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para Ant.
Tamanho do download :
6.49 MiB
Tamanho do conjunto de dados :
23.02 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
passos | Conjunto de dados | |||
etapas/ação | Tensor | (8,) | float32 | |
passos/desconto | Tensor | float32 | ||
passos/é_primeiro | Tensor | bool | ||
passos/é_último | Tensor | bool | ||
etapas/is_terminal | Tensor | bool | ||
etapas/observação | Tensor | (111,) | float32 | |
passos/recompensa | Tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/hopper_sac_1M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para Hopper.
Tamanho do download :
2.26 MiB
Tamanho do conjunto de dados :
2.62 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
passos | Conjunto de dados | |||
etapas/ação | Tensor | (3,) | float32 | |
passos/desconto | Tensor | float32 | ||
passos/é_primeiro | Tensor | bool | ||
passos/é_último | Tensor | bool | ||
etapas/is_terminal | Tensor | bool | ||
etapas/observação | Tensor | (11,) | float32 | |
passos/recompensa | Tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/halfcheetah_sac_1M_single_policy_stochastic
Descrição da configuração : conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para HalfCheetah.
Tamanho do download :
4.49 MiB
Tamanho do conjunto de dados :
4.93 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
passos | Conjunto de dados | |||
etapas/ação | Tensor | (6,) | float32 | |
passos/desconto | Tensor | float32 | ||
passos/é_primeiro | Tensor | bool | ||
passos/é_último | Tensor | bool | ||
etapas/is_terminal | Tensor | bool | ||
etapas/observação | Tensor | (17,) | float32 | |
passos/recompensa | Tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/walker2d_sac_1M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para Walker2d.
Tamanho do download :
4.35 MiB
Tamanho do conjunto de dados :
4.91 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
passos | Conjunto de dados | |||
etapas/ação | Tensor | (6,) | float32 | |
passos/desconto | Tensor | float32 | ||
passos/é_primeiro | Tensor | bool | ||
passos/é_último | Tensor | bool | ||
etapas/is_terminal | Tensor | bool | ||
etapas/observação | Tensor | (17,) | float32 | |
passos/recompensa | Tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/humanoid_sac_15M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 15 milhões para Humanoid.
Tamanho do download :
192.78 MiB
Tamanho do conjunto de dados :
300.94 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
passos | Conjunto de dados | |||
etapas/ação | Tensor | (17,) | float32 | |
passos/desconto | Tensor | float32 | ||
passos/é_primeiro | Tensor | bool | ||
passos/é_último | Tensor | bool | ||
etapas/is_terminal | Tensor | bool | ||
etapas/observação | Tensor | (376,) | float32 | |
passos/recompensa | Tensor | float32 |
- Exemplos ( tfds.as_dataframe ):