locomoção

  • Descrição :

Os conjuntos de dados foram criados com um agente SAC treinado na recompensa ambiental das tarefas de locomoção do MuJoCo. Esses conjuntos de dados são usados ​​em What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomoção/ant_sac_1M_single_policy_stochastic (configuração padrão)

  • Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para Ant.

  • Tamanho do download : 6.49 MiB

  • Tamanho do conjunto de dados : 23.02 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 50
  • Estrutura de recursos :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
passos Conjunto de dados
etapas/ação Tensor (8,) float32
passos/desconto Tensor float32
passos/é_primeiro Tensor bool
passos/é_último Tensor bool
etapas/is_terminal Tensor bool
etapas/observação Tensor (111,) float32
passos/recompensa Tensor float32

locomoção/hopper_sac_1M_single_policy_stochastic

  • Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para Hopper.

  • Tamanho do download : 2.26 MiB

  • Tamanho do conjunto de dados : 2.62 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 50
  • Estrutura de recursos :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
passos Conjunto de dados
etapas/ação Tensor (3,) float32
passos/desconto Tensor float32
passos/é_primeiro Tensor bool
passos/é_último Tensor bool
etapas/is_terminal Tensor bool
etapas/observação Tensor (11,) float32
passos/recompensa Tensor float32

locomoção/halfcheetah_sac_1M_single_policy_stochastic

  • Descrição da configuração : conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para HalfCheetah.

  • Tamanho do download : 4.49 MiB

  • Tamanho do conjunto de dados : 4.93 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 50
  • Estrutura de recursos :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
passos Conjunto de dados
etapas/ação Tensor (6,) float32
passos/desconto Tensor float32
passos/é_primeiro Tensor bool
passos/é_último Tensor bool
etapas/is_terminal Tensor bool
etapas/observação Tensor (17,) float32
passos/recompensa Tensor float32

locomoção/walker2d_sac_1M_single_policy_stochastic

  • Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 1 milhão para Walker2d.

  • Tamanho do download : 4.35 MiB

  • Tamanho do conjunto de dados : 4.91 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 50
  • Estrutura de recursos :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
passos Conjunto de dados
etapas/ação Tensor (6,) float32
passos/desconto Tensor float32
passos/é_primeiro Tensor bool
passos/é_último Tensor bool
etapas/is_terminal Tensor bool
etapas/observação Tensor (17,) float32
passos/recompensa Tensor float32

locomoção/humanoid_sac_15M_single_policy_stochastic

  • Descrição da configuração : Conjunto de dados gerado por um agente SAC treinado para etapas de 15 milhões para Humanoid.

  • Tamanho do download : 192.78 MiB

  • Tamanho do conjunto de dados : 300.94 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'train' 200
  • Estrutura de recursos :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
passos Conjunto de dados
etapas/ação Tensor (17,) float32
passos/desconto Tensor float32
passos/é_primeiro Tensor bool
passos/é_último Tensor bool
etapas/is_terminal Tensor bool
etapas/observação Tensor (376,) float32
passos/recompensa Tensor float32