d4rl_adroit_door

  • Description :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_door/v0-human (configuration par défaut)

  • Taille du téléchargement : 2.97 MiB

  • Taille de l'ensemble de données : 3.36 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (28,) flotteur32
étapes/remise Tenseur flotteur32
étapes/infos FonctionnalitésDict
étapes/infos/qpos Tenseur (30,) flotteur32
étapes/infos/qvel Tenseur (30,) flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (39,) flotteur32
étapes/récompense Tenseur flotteur32

d4rl_adroit_door/v0-cloné

  • Taille du téléchargement : 602.42 MiB

  • Taille de l'ensemble de données : 497.47 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'train' 6 214
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float64),
        'reward': float64,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (28,) flotteur32
étapes/remise Tenseur flotteur64
étapes/infos FonctionnalitésDict
étapes/infos/qpos Tenseur (30,) flotteur64
étapes/infos/qvel Tenseur (30,) flotteur64
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (39,) flotteur64
étapes/récompense Tenseur flotteur64

d4rl_adroit_door/v0-expert

  • Taille du téléchargement : 511.05 MiB

  • Taille de l'ensemble de données : 710.30 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'train' 5 000
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (28,) flotteur32
étapes/remise Tenseur flotteur32
étapes/infos FonctionnalitésDict
étapes/infos/action_logstd Tenseur (28,) flotteur32
étapes/infos/action_mean Tenseur (28,) flotteur32
étapes/infos/qpos Tenseur (30,) flotteur32
étapes/infos/qvel Tenseur (30,) flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (39,) flotteur32
étapes/récompense Tenseur flotteur32

d4rl_adroit_door/v1-humain

  • Taille du téléchargement : 2.98 MiB

  • Taille de l'ensemble de données : 3.42 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 25
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (28,) flotteur32
étapes/remise Tenseur flotteur32
étapes/infos FonctionnalitésDict
étapes/infos/door_body_pos Tenseur (3,) flotteur32
étapes/infos/qpos Tenseur (30,) flotteur32
étapes/infos/qvel Tenseur (30,) flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (39,) flotteur32
étapes/récompense Tenseur flotteur32

d4rl_adroit_door/v1-cloné

  • Taille du téléchargement : 280.72 MiB

  • Taille du jeu de données : 1.85 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'train' 4 358
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(39, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(256, 28), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
algorithme Tenseur chaîne
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (256,) flotteur32
politique/fc0/poids Tenseur (39, 256) flotteur32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (256,) flotteur32
politique/fc1/poids Tenseur (256, 256) flotteur32
politique/last_fc FonctionnalitésDict
politique/last_fc/bias Tenseur (28,) flotteur32
politique/last_fc/poids Tenseur (256, 28) flotteur32
politique/non-linéarité Tenseur chaîne
politique/distribution_de sortie Tenseur chaîne
pas Base de données
étapes/actions Tenseur (28,) flotteur32
étapes/remise Tenseur flotteur32
étapes/infos FonctionnalitésDict
étapes/infos/door_body_pos Tenseur (3,) flotteur32
étapes/infos/qpos Tenseur (30,) flotteur32
étapes/infos/qvel Tenseur (30,) flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (39,) flotteur32
étapes/récompense Tenseur flotteur32

d4rl_adroit_door/v1-expert

  • Taille du téléchargement : 511.22 MiB

  • Taille de l'ensemble de données : 803.48 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'train' 5 000
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 39), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 32), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
algorithme Tenseur chaîne
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (32,) flotteur32
politique/fc0/poids Tenseur (32, 39) flotteur32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (32,) flotteur32
politique/fc1/poids Tenseur (32, 32) flotteur32
politique/last_fc FonctionnalitésDict
politique/last_fc/bias Tenseur (28,) flotteur32
politique/last_fc/poids Tenseur (28, 32) flotteur32
politique/last_fc_log_std FonctionnalitésDict
politique/last_fc_log_std/bias Tenseur (28,) flotteur32
politique/last_fc_log_std/poids Tenseur (28, 32) flotteur32
politique/non-linéarité Tenseur chaîne
politique/distribution_de sortie Tenseur chaîne
pas Base de données
étapes/actions Tenseur (28,) flotteur32
étapes/remise Tenseur flotteur32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_std Tenseur (28,) flotteur32
étapes/infos/action_mean Tenseur (28,) flotteur32
étapes/infos/door_body_pos Tenseur (3,) flotteur32
étapes/infos/qpos Tenseur (30,) flotteur32
étapes/infos/qvel Tenseur (30,) flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (39,) flotteur32
étapes/récompense Tenseur flotteur32