d4rl_mujoco_hopper

  • Descriptif :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d'analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_hopper/v0-expert (configuration par défaut)

  • Taille du téléchargement : 51.56 MiB

  • Taille du jeu de données : 64.10 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 1 029
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v0-medium

  • Taille du téléchargement : 51.74 MiB

  • Taille du jeu de données : 64.68 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 3 064
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v0-medium-expert

  • Taille du téléchargement : 62.01 MiB

  • Taille du jeu de données : 77.25 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 2 277
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v0-mixed

  • Taille du téléchargement : 10.48 MiB

  • Taille du jeu de données : 13.15 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 1 250
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v0-aléatoire

  • Taille du téléchargement : 51.83 MiB

  • Taille du jeu de données : 66.06 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 8 793
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v1-expert

  • Taille du téléchargement : 93.19 MiB

  • Taille du jeu de données : 608.03 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 836
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.string
itération Tenseur tf.int32
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (256,) tf.float32
politique/fc0/poids Tenseur (256, 11) tf.float32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (256,) tf.float32
politique/fc1/poids Tenseur (256, 256) tf.float32
politique/dernier_fc FonctionnalitésDict
politique/last_fc/biais Tenseur (3,) tf.float32
politique/last_fc/poids Tenseur (3 256) tf.float32
politique/last_fc_log_std FonctionnalitésDict
politique/last_fc_log_std/biais Tenseur (3,) tf.float32
politique/last_fc_log_std/poids Tenseur (3 256) tf.float32
politique/non-linéarité Tenseur tf.chaîne
politique/sortie_distribution Tenseur tf.string
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float32
étapes/infos/qpos Tenseur (6,) tf.float32
étapes/infos/qvel Tenseur (6,) tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v1-medium

  • Taille du téléchargement : 92.03 MiB

  • Taille du jeu de données : 1.78 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 6 328
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.string
itération Tenseur tf.int32
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (256,) tf.float32
politique/fc0/poids Tenseur (256, 11) tf.float32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (256,) tf.float32
politique/fc1/poids Tenseur (256, 256) tf.float32
politique/dernier_fc FonctionnalitésDict
politique/last_fc/biais Tenseur (3,) tf.float32
politique/last_fc/poids Tenseur (3 256) tf.float32
politique/last_fc_log_std FonctionnalitésDict
politique/last_fc_log_std/biais Tenseur (3,) tf.float32
politique/last_fc_log_std/poids Tenseur (3 256) tf.float32
politique/non-linéarité Tenseur tf.string
politique/sortie_distribution Tenseur tf.string
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float32
étapes/infos/qpos Tenseur (6,) tf.float32
étapes/infos/qvel Tenseur (6,) tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v1-medium-expert

  • Taille du téléchargement : 184.59 MiB

  • Taille du jeu de données : 230.24 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 8 163
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float32
étapes/infos/qpos Tenseur (6,) tf.float32
étapes/infos/qvel Tenseur (6,) tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v1-medium-replay

  • Taille du téléchargement : 55.65 MiB

  • Taille du jeu de données : 34.78 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 1 151
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float64),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.string
itération Tenseur tf.int32
pas Base de données
étapes/action Tenseur (3,) tf.float64
étapes/réduction Tenseur tf.float64
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float64
pas/récompense Tenseur tf.float64

d4rl_mujoco_hopper/v1-full-replay

  • Taille du téléchargement : 183.32 MiB

  • Taille du jeu de données : 114.78 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 2 907
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float64),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.chaîne
itération Tenseur tf.int32
pas Base de données
étapes/action Tenseur (3,) tf.float64
étapes/réduction Tenseur tf.float64
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float64
pas/récompense Tenseur tf.float64

d4rl_mujoco_hopper/v1-aléatoire

  • Taille du téléchargement : 91.11 MiB

  • Taille du jeu de données : 130.73 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 45 265
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float32
étapes/infos/qpos Tenseur (6,) tf.float32
étapes/infos/qvel Tenseur (6,) tf.float32
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v2-expert

  • Taille du téléchargement : 145.37 MiB

  • Taille du jeu de données : 390.40 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 1 028
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.string
itération Tenseur tf.int32
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (256,) tf.float32
politique/fc0/poids Tenseur (256, 11) tf.float32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (256,) tf.float32
politique/fc1/poids Tenseur (256, 256) tf.float32
politique/dernier_fc FonctionnalitésDict
politique/last_fc/biais Tenseur (3,) tf.float32
politique/last_fc/poids Tenseur (3 256) tf.float32
politique/last_fc_log_std FonctionnalitésDict
politique/last_fc_log_std/biais Tenseur (3,) tf.float32
politique/last_fc_log_std/poids Tenseur (3 256) tf.float32
politique/non-linéarité Tenseur tf.string
politique/sortie_distribution Tenseur tf.string
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v2-full-replay

  • Taille du téléchargement : 179.29 MiB

  • Taille du jeu de données : 115.04 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 3 515
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.chaîne
itération Tenseur tf.int32
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v2-medium

  • Taille du téléchargement : 145.68 MiB

  • Taille du jeu de données : 702.57 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 2 187
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.string
itération Tenseur tf.int32
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (256,) tf.float32
politique/fc0/poids Tenseur (256, 11) tf.float32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (256,) tf.float32
politique/fc1/poids Tenseur (256, 256) tf.float32
politique/dernier_fc FonctionnalitésDict
politique/last_fc/biais Tenseur (3,) tf.float32
politique/last_fc/poids Tenseur (3 256) tf.float32
politique/last_fc_log_std FonctionnalitésDict
politique/last_fc_log_std/biais Tenseur (3,) tf.float32
politique/last_fc_log_std/poids Tenseur (3 256) tf.float32
politique/non-linéarité Tenseur tf.string
politique/sortie_distribution Tenseur tf.string
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v2-medium-expert

  • Taille du téléchargement : 290.43 MiB

  • Taille du jeu de données : 228.28 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 3 214
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v2-medium-replay

  • Taille du téléchargement : 72.34 MiB

  • Taille du jeu de données : 46.51 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 2 041
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur tf.string
itération Tenseur tf.int32
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32

d4rl_mujoco_hopper/v2-aléatoire

  • Taille du téléchargement : 145.46 MiB

  • Taille du jeu de données : 130.72 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 45 240
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) tf.float32
étapes/réduction Tenseur tf.float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_probs Tenseur tf.float64
étapes/infos/qpos Tenseur (6,) tf.float64
étapes/infos/qvel Tenseur (6,) tf.float64
étapes/is_first Tenseur tf.bool
pas/est_dernier Tenseur tf.bool
étapes/is_terminal Tenseur tf.bool
étapes/observation Tenseur (11,) tf.float32
pas/récompense Tenseur tf.float32