TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

d4rl_mujoco_walker2d

Description :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

Documentation supplémentaire : Explorer sur les articles avec le code
Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Page d'accueil : https://sites.google.com/view/d4rl-anonymous
Code source : tfds.d4rl.d4rl_mujoco_walker2d.D4rlMujocoWalker2d
Versions :
- 1.0.0 : Version initiale.
- 1.1.0 : Ajout de is_last.
- 1.2.0 (par défaut) : Mis à jour pour prendre en compte l'observation suivante.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_walker2d/v0-expert (configuration par défaut)

Taille du téléchargement : 78.41 MiB
Taille de l'ensemble de données : 98.64 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 628

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v0-medium

Taille du téléchargement : 80.83 MiB
Taille de l'ensemble de données : 99.72 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	5 315

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v0-medium-expert

Taille du téléchargement : 159.24 MiB
Taille de l'ensemble de données : 198.36 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	6 943

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v0-mixte

Taille du téléchargement : 8.42 MiB
Taille de l'ensemble de données : 10.06 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	501

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v0-random

Taille du téléchargement : 78.41 MiB
Taille de l'ensemble de données : 112.04 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	50 988

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v1-expert

Taille du téléchargement : 143.06 MiB
Taille de l'ensemble de données : 452.72 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 003

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v1-medium

Taille du téléchargement : 144.23 MiB
Taille de l'ensemble de données : 510.08 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 207

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v1-medium-expert

Taille du téléchargement : 286.69 MiB
Taille de l'ensemble de données : 342.46 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 209

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v1-medium-replay

Taille du téléchargement : 84.37 MiB
Taille de l'ensemble de données : 52.10 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 093

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v1-full-replay

Taille du téléchargement : 278.95 MiB
Taille de l'ensemble de données : 171.66 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	1 888

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v1-random

Taille du téléchargement : 132.36 MiB
Taille de l'ensemble de données : 192.06 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	48 790

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v2-expert

Taille du téléchargement : 219.89 MiB
Taille de l'ensemble de données : 452.16 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 001

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v2-full-replay

Taille du téléchargement : 271.91 MiB
Taille de l'ensemble de données : 171.66 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	1 888

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v2-medium

Taille du téléchargement : 221.50 MiB
Taille de l'ensemble de données : 505.58 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 191

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v2-medium-expert

Taille du téléchargement : 440.79 MiB
Taille de l'ensemble de données : 342.45 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 191

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v2-medium-replay

Taille du téléchargement : 82.32 MiB
Taille de l'ensemble de données : 52.10 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 093

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d/v2-random

Taille du téléchargement : 206.10 MiB
Taille de l'ensemble de données : 192.11 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	48 908

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_walker2d Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.