- Descrizione :
I set di dati sono stati creati con un agente SAC addestrato sulla ricompensa ambientale delle attività di locomozione MuJoCo. Questi set di dati vengono utilizzati in What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .
I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi
Home page : https://github.com/google-research/rlds
Codice sorgente :
tfds.rlds.datasets.locomotion.Locomotion
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (configurazione predefinita)
Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Ant.
Dimensione download :
6.49 MiB
Dimensione del set di dati :
23.02 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 50 |
- Struttura delle caratteristiche :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
passi | Set di dati | |||
passi/azione | Tensore | (8,) | float32 | |
passi/sconto | Tensore | float32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | Tensore | (111,) | float32 | |
passi/ricompensa | Tensore | float32 |
- Esempi ( tfds.as_dataframe ):
locomotion/hopper_sac_1M_single_policy_stochastic
Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Hopper.
Dimensione download :
2.26 MiB
Dimensione del set di dati :
2.62 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 50 |
- Struttura delle caratteristiche :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
passi | Set di dati | |||
passi/azione | Tensore | (3,) | float32 | |
passi/sconto | Tensore | float32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | Tensore | (11,) | float32 | |
passi/ricompensa | Tensore | float32 |
- Esempi ( tfds.as_dataframe ):
locomotion/halfcheetah_sac_1M_single_policy_stochastic
Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passi per HalfCheetah.
Dimensione download :
4.49 MiB
Dimensione del set di dati :
4.93 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 50 |
- Struttura delle caratteristiche :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
passi | Set di dati | |||
passi/azione | Tensore | (6,) | float32 | |
passi/sconto | Tensore | float32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | Tensore | (17,) | float32 | |
passi/ricompensa | Tensore | float32 |
- Esempi ( tfds.as_dataframe ):
locomozione/walker2d_sac_1M_single_policy_stochastic
Descrizione configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Walker2d.
Dimensione download :
4.35 MiB
Dimensione del set di dati :
4.91 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 50 |
- Struttura delle caratteristiche :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
passi | Set di dati | |||
passi/azione | Tensore | (6,) | float32 | |
passi/sconto | Tensore | float32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | Tensore | (17,) | float32 | |
passi/ricompensa | Tensore | float32 |
- Esempi ( tfds.as_dataframe ):
locomozione/humanoid_sac_15M_single_policy_stochastic
Descrizione configurazione : set di dati generato da un agente SAC addestrato per 15 milioni di passi per Humanoid.
Dimensione download :
192.78 MiB
Dimensione del set di dati :
300.94 MiB
Memorizzazione nella cache automatica ( documentazione ): No
Divide :
Diviso | Esempi |
---|---|
'train' | 200 |
- Struttura delle caratteristiche :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
passi | Set di dati | |||
passi/azione | Tensore | (17,) | float32 | |
passi/sconto | Tensore | float32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | Tensore | (376,) | float32 | |
passi/ricompensa | Tensore | float32 |
- Esempi ( tfds.as_dataframe ):