- Descrição :
RL Unplugged é um conjunto de benchmarks para aprendizado de reforço offline. O RL Unplugged foi projetado com base nas seguintes considerações: para facilitar o uso, fornecemos os conjuntos de dados com uma API unificada que torna mais fácil para o profissional trabalhar com todos os dados no conjunto, uma vez que um pipeline geral tenha sido estabelecido.
Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.
Exemplos no conjunto de dados representam transições SAR armazenadas ao executar um agente treinado parcialmente online, conforme descrito em https://arxiv.org/abs/1904.12901 Seguimos o formato de conjunto de dados RLDS, conforme especificado em https://github.com/google-research /rlds#dataset-format
Lançamos 40 conjuntos de dados em 8 tarefas no total -- sem desafio combinado e desafio combinado fácil nas tarefas cartpole, walker, quadrúpede e humanóide. Cada tarefa contém 5 tamanhos diferentes de conjuntos de dados, 1%, 5%, 20%, 40% e 100%. Observe que não há garantia de que o conjunto de dados menor seja um subconjunto dos maiores. Para obter detalhes sobre como o conjunto de dados foi gerado, consulte o artigo.
Página inicial : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código -fonte:
tfds.rl_unplugged.rlu_rwrl.RluRwrl
Versões :
-
1.0.0
: versão inicial. -
1.0.1
(padrão): Corrige um bug no conjunto de dados RLU RWRL onde há ids de episódios duplicados em um dos conjuntos de dados humanoides.
-
Tamanho do download :
Unknown size
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@misc{gulcehre2020rl,
title={RL Unplugged: Benchmarks for Offline Reinforcement Learning},
author={Caglar Gulcehre and Ziyu Wang and Alexander Novikov and Tom Le Paine
and Sergio Gómez Colmenarejo and Konrad Zolna and Rishabh Agarwal and
Josh Merel and Daniel Mankowitz and Cosmin Paduraru and Gabriel
Dulac-Arnold and Jerry Li and Mohammad Norouzi and Matt Hoffman and
Ofir Nachum and George Tucker and Nicolas Heess and Nando deFreitas},
year={2020},
eprint={2006.13888},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
rlu_rwrl/cartpole_swingup_combined_challenge_none_1_percent (configuração padrão)
Tamanho do conjunto de dados :
172.43 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_none_5_percent
Tamanho do conjunto de dados :
862.13 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 25 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_none_20_percent
Tamanho do conjunto de dados :
3.37 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 100 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_none_40_percent
Tamanho do conjunto de dados :
6.74 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_none_100_percent
Tamanho do conjunto de dados :
16.84 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 500 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_none_1_percent
Tamanho do conjunto de dados :
1.77 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_none_5_percent
Tamanho do conjunto de dados :
8.86 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 25 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_none_20_percent
Tamanho do conjunto de dados :
35.46 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 100 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_none_40_percent
Tamanho do conjunto de dados :
70.92 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_none_100_percent
Tamanho do conjunto de dados :
177.29 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 500 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_none_1_percent
Tamanho do conjunto de dados :
6.27 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_none_5_percent
Tamanho do conjunto de dados :
31.34 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 250 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_none_20_percent
Tamanho do conjunto de dados :
125.37 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_none_40_percent
Tamanho do conjunto de dados :
250.75 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_none_100_percent
Tamanho do conjunto de dados :
626.86 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_none_1_percent
Tamanho do conjunto de dados :
69.40 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_none_5_percent
Tamanho do conjunto de dados :
346.98 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_none_20_percent
Tamanho do conjunto de dados :
1.36 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_none_40_percent
Tamanho do conjunto de dados :
2.71 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_none_100_percent
Tamanho do conjunto de dados :
6.78 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_easy_1_percent
Tamanho do conjunto de dados :
369.84 KiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_easy_5_percent
Tamanho do conjunto de dados :
1.81 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 25 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_easy_20_percent
Tamanho do conjunto de dados :
7.22 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 100 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_easy_40_percent
Tamanho do conjunto de dados :
14.45 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/cartpole_swingup_combined_challenge_easy_100_percent
Tamanho do conjunto de dados :
36.12 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 500 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_easy_1_percent
Tamanho do conjunto de dados :
1.97 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_easy_5_percent
Tamanho do conjunto de dados :
9.83 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 25 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_easy_20_percent
Tamanho do conjunto de dados :
39.31 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 100 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_easy_40_percent
Tamanho do conjunto de dados :
78.63 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/quadruped_walk_combined_challenge_easy_100_percent
Tamanho do conjunto de dados :
196.57 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 500 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(12,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'egocentric_state': Tensor(shape=(44,), dtype=float32),
'force_torque': Tensor(shape=(24,), dtype=float32),
'imu': Tensor(shape=(6,), dtype=float32),
'torso_upright': Tensor(shape=(1,), dtype=float32),
'torso_velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (12,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/estado_egocêntrico | tensor | (44,) | float32 | |
passos/observação/force_torque | tensor | (24,) | float32 | |
passos/observação/imu | tensor | (6,) | float32 | |
passos/observação/torso_upright | tensor | (1,) | float32 | |
passos/observação/torso_velocity | tensor | (3,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_easy_1_percent
Tamanho do conjunto de dados :
8.20 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 50 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_easy_5_percent
Tamanho do conjunto de dados :
40.98 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 250 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_easy_20_percent
Tamanho do conjunto de dados :
163.93 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_easy_40_percent
Tamanho do conjunto de dados :
327.86 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/walker_walk_combined_challenge_easy_100_percent
Tamanho do conjunto de dados :
819.65 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_easy_1_percent
Tamanho do conjunto de dados :
77.11 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_easy_5_percent
Tamanho do conjunto de dados :
385.54 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_easy_20_percent
Tamanho do conjunto de dados :
1.51 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_easy_40_percent
Tamanho do conjunto de dados :
3.01 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):
rlu_rwrl/humanoid_walk_combined_challenge_easy_100_percent
Tamanho do conjunto de dados :
7.53 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_return': float32,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': Tensor(shape=(1,), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'dummy-0': Tensor(shape=(1,), dtype=float32),
'dummy-1': Tensor(shape=(1,), dtype=float32),
'dummy-2': Tensor(shape=(1,), dtype=float32),
'dummy-3': Tensor(shape=(1,), dtype=float32),
'dummy-4': Tensor(shape=(1,), dtype=float32),
'dummy-5': Tensor(shape=(1,), dtype=float32),
'dummy-6': Tensor(shape=(1,), dtype=float32),
'dummy-7': Tensor(shape=(1,), dtype=float32),
'dummy-8': Tensor(shape=(1,), dtype=float32),
'dummy-9': Tensor(shape=(1,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': Tensor(shape=(1,), dtype=float32),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | (1,) | float32 | |
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/manequim-0 | tensor | (1,) | float32 | |
passos/observação/manequim-1 | tensor | (1,) | float32 | |
passos/observação/manequim-2 | tensor | (1,) | float32 | |
passos/observação/manequim-3 | tensor | (1,) | float32 | |
passos/observação/manequim-4 | tensor | (1,) | float32 | |
passos/observação/manequim-5 | tensor | (1,) | float32 | |
passos/observação/manequim-6 | tensor | (1,) | float32 | |
passos/observação/manequim-7 | tensor | (1,) | float32 | |
passos/observação/manequim-8 | tensor | (1,) | float32 | |
passos/observação/manequim-9 | tensor | (1,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | (1,) | float32 |
- Exemplos ( tfds.as_dataframe ):