Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

rlu_dmlab_explore_object_rewards_few

Descrição :

RL Unplugged é um conjunto de benchmarks para aprendizado de reforço offline. O RL Unplugged foi projetado com base nas seguintes considerações: para facilitar o uso, fornecemos os conjuntos de dados com uma API unificada que torna mais fácil para o profissional trabalhar com todos os dados no conjunto, uma vez que um pipeline geral tenha sido estabelecido.

Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.

O conjunto de dados do DeepMind Lab tem vários níveis do conjunto desafiador e parcialmente observável do Deepmind Lab . O conjunto de dados do DeepMind Lab é coletado treinando R2D2 distribuído por Kapturowski et al., 2018 agentes do zero em tarefas individuais. Registramos a experiência de todos os atores durante todo o treinamento algumas vezes para cada tarefa. Os detalhes do processo de geração do conjunto de dados são descritos em Gulcehre et al., 2021 .

Lançamos conjuntos de dados para cinco níveis diferentes do DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Também liberamos os conjuntos de dados instantâneos para o nível seekavoid_arena_01 que geramos os conjuntos de dados de um instantâneo R2D2 treinado com diferentes níveis de epsilons para o algoritmo epsilon-greedy ao avaliar o agente no ambiente.

O conjunto de dados do DeepMind Lab é bastante grande. Recomendamos que você experimente se estiver interessado em modelos RL off-line em grande escala com memória.

Página inicial : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código -fonte: tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versões :
- 1.0.0 : versão inicial.
- 1.1.0 : Adicionado is_last.
- 1.2.0 (padrão): BGR -> correção RGB para observações de pixel.
Tamanho do download : Unknown size
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	89.144

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
episódio_retorno	tensor		float32
degraus	conjunto de dados
passos/ação	tensor		int64
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/última_ação	tensor		int64
passos/observação/last_reward	tensor		float32
passos/observação/pixels	Imagem	(72, 96, 3)	uint8
passos/recompensa	tensor		float32

Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não compatível.
Citação :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (configuração padrão)

Tamanho do conjunto de dados : 847.00 GiB
Exemplos ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

Tamanho do conjunto de dados : 877.76 GiB
Exemplos ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

Tamanho do conjunto de dados : 836.43 GiB
Exemplos ( tfds.as_dataframe ):