- Descrição :
RL Unplugged é um conjunto de benchmarks para aprendizado de reforço offline. O RL Unplugged foi desenvolvido com base nas seguintes considerações: para facilitar o uso, fornecemos aos conjuntos de dados uma API unificada que facilita o trabalho do profissional com todos os dados do conjunto, uma vez que um pipeline geral tenha sido estabelecido.
Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.
O conjunto de dados do DeepMind Lab tem vários níveis do conjunto desafiador e parcialmente observável do Deepmind Lab . O conjunto de dados do DeepMind Lab é coletado pelo treinamento distribuído R2D2 por Kapturowski et al., 2018 agentes do zero em tarefas individuais. Registramos a experiência de todos os atores durante todo o treinamento algumas vezes para cada tarefa. Os detalhes do processo de geração do conjunto de dados são descritos em Gulcehre et al., 2021 .
Lançamos conjuntos de dados para cinco níveis diferentes do DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Também liberamos os conjuntos de dados de instantâneos para o nível seekavoid_arena_01
que geramos os conjuntos de dados de um instantâneo R2D2 treinado com diferentes níveis de epsilons para o algoritmo epsilon-greedy ao avaliar o agente no ambiente.
O conjunto de dados do DeepMind Lab é bastante grande. Recomendamos que você experimente se estiver interessado em modelos RL offline de grande escala com memória.
Página inicial : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código fonte :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versões :
-
1.0.0
: Versão inicial. -
1.1.0
: Adicionado is_last. -
1.2.0
(padrão): BGR -> Correção RGB para observações de pixel.
-
Tamanho do download :
Unknown size
Cache automático ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 89.144 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
CaracterísticasDict | ||||
episodio_id | Tensor | tf.int64 | ||
episódio_retorno | Tensor | tf.float32 | ||
degraus | Conjunto de dados | |||
passos/ação | Tensor | tf.int64 | ||
passos/desconto | Tensor | tf.float32 | ||
passos/é_primeiro | Tensor | tf.bool | ||
passos/é_último | Tensor | tf.bool | ||
passos/is_terminal | Tensor | tf.bool | ||
passos/observação | CaracterísticasDict | |||
passos/observação/last_action | Tensor | tf.int64 | ||
passos/observação/last_reward | Tensor | tf.float32 | ||
passos/observação/pixels | Imagem | (72, 96, 3) | tf.uint8 | |
passos/recompensa | Tensor | tf.float32 |
Chaves supervisionadas (consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (configuração padrão)
Tamanho do conjunto de dados :
847.00 GiB
Exemplos ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
Tamanho do conjunto de dados :
877.76 GiB
Exemplos ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
Tamanho do conjunto de dados :
836.43 GiB
Exemplos ( tfds.as_dataframe ):