- Descriptif :
Les jeux de données ont été créés avec un agent SAC formé sur l'environnement de récompense des tâches de locomotion MuJoCo. Ces ensembles de données sont utilisés dans What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .
Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.s
Page d' accueil : https://github.com/google-research/rlds
Code source :
tfds.rlds.locomotion.Locomotion
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (configuration par défaut)
Description de la configuration : jeu de données généré par un agent SAC formé pour 1 M d'étapes pour Ant.
Taille du téléchargement :
6.49 MiB
Taille du jeu de données :
23.02 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (8,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (111,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
locomotion/hopper_sac_1M_single_policy_stochastic
Description de la configuration : jeu de données généré par un agent SAC formé pour 1 M d'étapes pour Hopper.
Taille du téléchargement :
2.26 MiB
Taille du jeu de données :
2.62 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (3,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (11,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
locomotion/halfcheetah_sac_1M_single_policy_stochastic
Description de la configuration : jeu de données généré par un agent SAC formé pour les étapes 1M pour HalfCheetah.
Taille du téléchargement :
4.49 MiB
Taille du jeu de données :
4.93 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (6,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (17,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
locomotion/walker2d_sac_1M_single_policy_stochastic
Description de la configuration : Jeu de données généré par un agent SAC formé pour 1M d'étapes pour Walker2d.
Taille du téléchargement :
4.35 MiB
Taille du jeu de données :
4.91 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (6,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (17,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
locomotion/humanoid_sac_15M_single_policy_stochastic
Description de la configuration : jeu de données généré par un agent SAC formé pour les étapes 15M pour Humanoid.
Taille du téléchargement :
192.78 MiB
Taille du jeu de données :
300.94 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 200 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (17,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (376,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):