locomozione

Descrizione :

I set di dati sono stati creati con un agente SAC addestrato sulla ricompensa ambientale delle attività di locomozione MuJoCo. Questi set di dati vengono utilizzati in What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi

Home page : https://github.com/google-research/rlds
Codice sorgente : tfds.rlds.datasets.locomotion.Locomotion
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Chiavi supervisionate (vedi il documento as_supervised ): None
Figura ( tfds.show_examples ): non supportato.
Citazione :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (configurazione predefinita)

Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Ant.
Dimensione download : 6.49 MiB
Dimensione del set di dati : 23.02 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :

Diviso	Esempi
`'train'`	50

Struttura delle caratteristiche :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
passi	Set di dati
passi/azione	Tensore	(8,)	float32
passi/sconto	Tensore		float32
passi/è_primo	Tensore		bool
passi/è_ultimo	Tensore		bool
passi/è_terminale	Tensore		bool
passi/osservazione	Tensore	(111,)	float32
passi/ricompensa	Tensore		float32

Esempi ( tfds.as_dataframe ):

locomotion/hopper_sac_1M_single_policy_stochastic

Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Hopper.
Dimensione download : 2.26 MiB
Dimensione del set di dati : 2.62 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :

Diviso	Esempi
`'train'`	50

Struttura delle caratteristiche :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
passi	Set di dati
passi/azione	Tensore	(3,)	float32
passi/sconto	Tensore		float32
passi/è_primo	Tensore		bool
passi/è_ultimo	Tensore		bool
passi/è_terminale	Tensore		bool
passi/osservazione	Tensore	(11,)	float32
passi/ricompensa	Tensore		float32

Esempi ( tfds.as_dataframe ):

locomotion/halfcheetah_sac_1M_single_policy_stochastic

Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passi per HalfCheetah.
Dimensione download : 4.49 MiB
Dimensione del set di dati : 4.93 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :

Diviso	Esempi
`'train'`	50

Struttura delle caratteristiche :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
passi	Set di dati
passi/azione	Tensore	(6,)	float32
passi/sconto	Tensore		float32
passi/è_primo	Tensore		bool
passi/è_ultimo	Tensore		bool
passi/è_terminale	Tensore		bool
passi/osservazione	Tensore	(17,)	float32
passi/ricompensa	Tensore		float32

Esempi ( tfds.as_dataframe ):

locomozione/walker2d_sac_1M_single_policy_stochastic

Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Walker2d.
Dimensione download : 4.35 MiB
Dimensione del set di dati : 4.91 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :

Diviso	Esempi
`'train'`	50

Struttura delle caratteristiche :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
passi	Set di dati
passi/azione	Tensore	(6,)	float32
passi/sconto	Tensore		float32
passi/è_primo	Tensore		bool
passi/è_ultimo	Tensore		bool
passi/è_terminale	Tensore		bool
passi/osservazione	Tensore	(17,)	float32
passi/ricompensa	Tensore		float32

Esempi ( tfds.as_dataframe ):

locomozione/humanoid_sac_15M_single_policy_stochastic

Descrizione configurazione : set di dati generato da un agente SAC addestrato per 15 milioni di passi per Humanoid.
Dimensione download : 192.78 MiB
Dimensione del set di dati : 300.94 MiB
Memorizzazione nella cache automatica ( documentazione ): No
Divide :

Diviso	Esempi
`'train'`	200

Struttura delle caratteristiche :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
passi	Set di dati
passi/azione	Tensore	(17,)	float32
passi/sconto	Tensore		float32
passi/è_primo	Tensore		bool
passi/è_ultimo	Tensore		bool
passi/è_terminale	Tensore		bool
passi/osservazione	Tensore	(376,)	float32
passi/ricompensa	Tensore		float32

Esempi ( tfds.as_dataframe ):