TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

d4rl_adroit_door

Description :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Page d'accueil : https://sites.google.com/view/d4rl-anonymous
Code source : tfds.d4rl.d4rl_adroit_door.D4rlAdroitDoor
Versions :
- 1.0.0 : Version initiale.
- 1.1.0 (par défaut) : ajout de is_last.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_door/v0-human (configuration par défaut)

Taille du téléchargement : 2.97 MiB
Taille de l'ensemble de données : 3.36 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	50

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(28,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/qpos	Tenseur	(30,)	flotteur32
étapes/infos/qvel	Tenseur	(30,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(39,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_adroit_door/v0-cloné

Taille du téléchargement : 602.42 MiB
Taille de l'ensemble de données : 497.47 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	6 214

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(28,)	flotteur32
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/qpos	Tenseur	(30,)	flotteur64
étapes/infos/qvel	Tenseur	(30,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(39,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_adroit_door/v0-expert

Taille du téléchargement : 511.05 MiB
Taille de l'ensemble de données : 710.30 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	5 000

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(28,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_logstd	Tenseur	(28,)	flotteur32
étapes/infos/action_mean	Tenseur	(28,)	flotteur32
étapes/infos/qpos	Tenseur	(30,)	flotteur32
étapes/infos/qvel	Tenseur	(30,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(39,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_adroit_door/v1-humain

Taille du téléchargement : 2.98 MiB
Taille de l'ensemble de données : 3.42 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	25

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(28,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/door_body_pos	Tenseur	(3,)	flotteur32
étapes/infos/qpos	Tenseur	(30,)	flotteur32
étapes/infos/qvel	Tenseur	(30,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(39,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_adroit_door/v1-cloné

Taille du téléchargement : 280.72 MiB
Taille du jeu de données : 1.85 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	4 358

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(39, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(256, 28), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(39, 256)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(28,)	flotteur32
politique/last_fc/poids	Tenseur	(256, 28)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(28,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/door_body_pos	Tenseur	(3,)	flotteur32
étapes/infos/qpos	Tenseur	(30,)	flotteur32
étapes/infos/qvel	Tenseur	(30,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(39,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_adroit_door/v1-expert

Taille du téléchargement : 511.22 MiB
Taille de l'ensemble de données : 803.48 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	5 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 39), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 32), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(32,)	flotteur32
politique/fc0/poids	Tenseur	(32, 39)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(32,)	flotteur32
politique/fc1/poids	Tenseur	(32, 32)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(28,)	flotteur32
politique/last_fc/poids	Tenseur	(28, 32)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(28,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(28, 32)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(28,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_std	Tenseur	(28,)	flotteur32
étapes/infos/action_mean	Tenseur	(28,)	flotteur32
étapes/infos/door_body_pos	Tenseur	(3,)	flotteur32
étapes/infos/qpos	Tenseur	(30,)	flotteur32
étapes/infos/qvel	Tenseur	(30,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(39,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_adroit_door Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.