¡TFDS ahora admite el formato Croissant 🥐 ! Lea la documentación para saber más.

Se usó la API de Cloud Translation para traducir esta página.

rlu_dmlab_seekavoid_arena01

Descripción :

RL Unplugged es un conjunto de puntos de referencia para el aprendizaje por refuerzo fuera de línea. El RL Unplugged está diseñado en torno a las siguientes consideraciones: para facilitar el uso, proporcionamos los conjuntos de datos con una API unificada que facilita al profesional trabajar con todos los datos en la suite una vez que se ha establecido una canalización general.

Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.

El conjunto de datos de DeepMind Lab tiene varios niveles de la suite Deepmind Lab desafiante y parcialmente observable. El conjunto de datos de DeepMind Lab se recopila capacitando a los agentes R2D2 distribuidos por Kapturowski et al., 2018 desde cero en tareas individuales. Registramos la experiencia de todos los actores durante todo el entrenamiento varias veces para cada tarea. Los detalles del proceso de generación de conjuntos de datos se describen en Gulcehre et al., 2021 .

Publicamos conjuntos de datos para cinco niveles diferentes de DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . También lanzamos los conjuntos de datos de instantáneas para el nivel seekavoid_arena_01 en el que generamos los conjuntos de datos a partir de una instantánea R2D2 entrenada con diferentes niveles de épsilons para el algoritmo ávido de épsilons al evaluar el agente en el entorno.

El conjunto de datos de DeepMind Lab es bastante grande. Le recomendamos que lo pruebe si está interesado en modelos RL sin conexión a gran escala con memoria.

Página de inicio: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código fuente : tfds.rl_unplugged.rlu_dmlab_seekavoid_arena01.RluDmlabSeekavoidArena01
Versiones :
- 1.0.0 : Versión inicial.
- 1.1.0 : Se agregó is_last.
- 1.2.0 (predeterminado): BGR -> Corrección RGB para observaciones de píxeles.
Tamaño de descarga : Unknown size
Almacenamiento automático en caché ( documentación ): No
Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
episodio_retorno	Tensor		flotar32
pasos	conjunto de datos
pasos/acción	Tensor		int64
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/última_acción	Tensor		int64
pasos/observación/última_recompensa	Tensor		flotar32
pasos/observación/píxeles	Imagen	(72, 96, 3)	uint8
pasos/recompensa	Tensor		flotar32

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_seekavoid_arena01/training_0 (configuración predeterminada)

Tamaño del conjunto de datos : 356.86 GiB
Divisiones :

Separar	Ejemplos
`'train'`	134,707

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/entrenamiento_1

Tamaño del conjunto de datos : 337.09 GiB
Divisiones :

Separar	Ejemplos
`'train'`	128,472

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/entrenamiento_2

Tamaño del conjunto de datos : 355.62 GiB
Divisiones :

Separar	Ejemplos
`'train'`	133,545

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/instantánea_0_eps_0.0

Tamaño del conjunto de datos : 89.16 GiB
Divisiones :

Separar	Ejemplos
`'train'`	33,340

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/instantánea_1_eps_0.0

Tamaño del conjunto de datos : 89.03 GiB
Divisiones :

Separar	Ejemplos
`'train'`	33,340

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/instantánea_0_eps_0.01

Tamaño del conjunto de datos : 89.12 GiB
Divisiones :

Separar	Ejemplos
`'train'`	33,340

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/instantánea_1_eps_0.01

Tamaño del conjunto de datos : 89.02 GiB
Divisiones :

Separar	Ejemplos
`'train'`	33,340

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/instantánea_0_eps_0.25

Tamaño del conjunto de datos : 88.57 GiB
Divisiones :

Separar	Ejemplos
`'train'`	33,340

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/instantánea_1_eps_0.25

Tamaño del conjunto de datos : 88.51 GiB
Divisiones :

Separar	Ejemplos
`'train'`	33,340

Ejemplos ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01 Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.