- Descrição :
Os conjuntos de dados foram criados com um agente SAC treinado na recompensa do ambiente de tarefas de locomoção MuJoCo. Esses conjuntos de dados são usados em What Matters for Adversarial Imitation Learning? Orsini et ai. 2021 .
Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.
Página inicial : https://github.com/google-research/rlds
Código fonte :
tfds.rlds.locomotion.Locomotion
Versões :
-
1.0.0
(padrão): versão inicial.
-
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (configuração padrão)
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para passos de 1M para Ant.
Tamanho do download :
6.49 MiB
Tamanho do conjunto de dados :
23.02 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
degraus | conjunto de dados | |||
passos/ação | tensor | (8,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | tensor | (111,) | float32 | |
passos/recompensa | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomotion/hopper_sac_1M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para passos de 1M para Hopper.
Tamanho do download :
2.26 MiB
Tamanho do conjunto de dados :
2.62 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
degraus | conjunto de dados | |||
passos/ação | tensor | (3,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | tensor | (11,) | float32 | |
passos/recompensa | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/halfcheetah_sac_1M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para passos de 1M para HalfCheetah.
Tamanho do download :
4.49 MiB
Tamanho do conjunto de dados :
4.93 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | tensor | (17,) | float32 | |
passos/recompensa | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/walker2d_sac_1M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para passos de 1M para Walker2d.
Tamanho do download :
4.35 MiB
Tamanho do conjunto de dados :
4.91 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | tensor | (17,) | float32 | |
passos/recompensa | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
locomoção/humanoid_sac_15M_single_policy_stochastic
Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para 15M passos para Humanoid.
Tamanho do download :
192.78 MiB
Tamanho do conjunto de dados :
300.94 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
degraus | conjunto de dados | |||
passos/ação | tensor | (17,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | tensor | (376,) | float32 | |
passos/recompensa | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):