- Descrição :
RL Unplugged é um conjunto de benchmarks para aprendizado de reforço offline. O RL Unplugged foi projetado com base nas seguintes considerações: para facilitar o uso, fornecemos os conjuntos de dados com uma API unificada que torna mais fácil para o profissional trabalhar com todos os dados no conjunto, uma vez que um pipeline geral tenha sido estabelecido.
Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.
O conjunto de dados do DeepMind Lab tem vários níveis do conjunto desafiador e parcialmente observável do Deepmind Lab . O conjunto de dados do DeepMind Lab é coletado treinando R2D2 distribuído por Kapturowski et al., 2018 agentes do zero em tarefas individuais. Registramos a experiência de todos os atores durante todo o treinamento algumas vezes para cada tarefa. Os detalhes do processo de geração do conjunto de dados são descritos em Gulcehre et al., 2021 .
Lançamos conjuntos de dados para cinco níveis diferentes do DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Também liberamos os conjuntos de dados instantâneos para o nível seekavoid_arena_01
que geramos os conjuntos de dados de um instantâneo R2D2 treinado com diferentes níveis de epsilons para o algoritmo epsilon-greedy ao avaliar o agente no ambiente.
O conjunto de dados do DeepMind Lab é bastante grande. Recomendamos que você experimente se estiver interessado em modelos RL off-line em grande escala com memória.
Página inicial : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código -fonte:
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versões :
-
1.0.0
: versão inicial. -
1.1.0
: Adicionado is_last. -
1.2.0
(padrão): BGR -> correção RGB para observações de pixel.
-
Tamanho do download :
Unknown size
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 89.144 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
episódio_retorno | tensor | float32 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | int64 | ||
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/última_ação | tensor | int64 | ||
passos/observação/last_reward | tensor | float32 | ||
passos/observação/pixels | Imagem | (72, 96, 3) | uint8 | |
passos/recompensa | tensor | float32 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (configuração padrão)
Tamanho do conjunto de dados :
847.00 GiB
Exemplos ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
Tamanho do conjunto de dados :
877.76 GiB
Exemplos ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
Tamanho do conjunto de dados :
836.43 GiB
Exemplos ( tfds.as_dataframe ):