locomozione

  • Descrizione :

I set di dati sono stati creati con un agente SAC addestrato sulla ricompensa ambientale delle attività di locomozione MuJoCo. Questi set di dati vengono utilizzati in What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (configurazione predefinita)

  • Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Ant.

  • Dimensione download : 6.49 MiB

  • Dimensione del set di dati : 23.02 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (8,) float32
passi/sconto Tensore float32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (111,) float32
passi/ricompensa Tensore float32

locomotion/hopper_sac_1M_single_policy_stochastic

  • Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Hopper.

  • Dimensione download : 2.26 MiB

  • Dimensione del set di dati : 2.62 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (3,) float32
passi/sconto Tensore float32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (11,) float32
passi/ricompensa Tensore float32

locomotion/halfcheetah_sac_1M_single_policy_stochastic

  • Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passi per HalfCheetah.

  • Dimensione download : 4.49 MiB

  • Dimensione del set di dati : 4.93 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (6,) float32
passi/sconto Tensore float32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (17,) float32
passi/ricompensa Tensore float32

locomozione/walker2d_sac_1M_single_policy_stochastic

  • Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Walker2d.

  • Dimensione download : 4.35 MiB

  • Dimensione del set di dati : 4.91 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (6,) float32
passi/sconto Tensore float32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (17,) float32
passi/ricompensa Tensore float32

locomozione/humanoid_sac_15M_single_policy_stochastic

  • Descrizione configurazione : set di dati generato da un agente SAC addestrato per 15 milioni di passi per Humanoid.

  • Dimensione download : 192.78 MiB

  • Dimensione del set di dati : 300.94 MiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'train' 200
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (17,) float32
passi/sconto Tensore float32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (376,) float32
passi/ricompensa Tensore float32