- Opis :
Zbiory danych utworzono przy udziale agenta SAC przeszkolonego w zakresie nagrody środowiskowej związanej z zadaniami lokomocyjnymi MuJoCo. Te zbiory danych są wykorzystywane w artykule Co ma znaczenie dla kontradyktoryjnego uczenia się przez naśladowanie? Orsini i in. 2021 .
Zbiory danych są zgodne z formatem RLDS i reprezentują kroki i odcinki
Strona główna : https://github.com/google-research/rlds
Kod źródłowy :
tfds.rlds.datasets.locomotion.Locomotion
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza.
-
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (konfiguracja domyślna)
Opis konfiguracji : Zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Ant.
Rozmiar pobierania :
6.49 MiB
Rozmiar zbioru danych :
23.02 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
kroki | Zbiór danych | |||
kroki/akcja | Napinacz | (8,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/is_terminal | Napinacz | bool | ||
kroki/obserwacje | Napinacz | (111,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/hopper_sac_1M_single_policy_stochastic
Opis konfiguracji : Zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Hoppera.
Rozmiar pliku do pobrania :
2.26 MiB
Rozmiar zbioru danych :
2.62 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
kroki | Zbiór danych | |||
kroki/akcja | Napinacz | (3,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/is_terminal | Napinacz | bool | ||
kroki/obserwacje | Napinacz | (11,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/halfcheetah_sac_1M_single_policy_stochastic
Opis konfiguracji : Zbiór danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla HalfCheetah.
Rozmiar pliku do pobrania :
4.49 MiB
Rozmiar zbioru danych :
4.93 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
kroki | Zbiór danych | |||
kroki/akcja | Napinacz | (6,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/is_terminal | Napinacz | bool | ||
kroki/obserwacje | Napinacz | (17,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/walker2d_sac_1M_single_policy_stochastic
Opis konfiguracji : Zbiór danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Walker2d.
Rozmiar pliku do pobrania :
4.35 MiB
Rozmiar zbioru danych :
4.91 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
kroki | Zbiór danych | |||
kroki/akcja | Napinacz | (6,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/is_terminal | Napinacz | bool | ||
kroki/obserwacje | Napinacz | (17,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/humanoid_sac_15M_single_policy_stochastic
Opis konfiguracji : Zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 15 milionów kroków dla Humanoida.
Rozmiar pobierania :
192.78 MiB
Rozmiar zbioru danych :
300.94 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'train' | 200 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
kroki | Zbiór danych | |||
kroki/akcja | Napinacz | (17,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/is_terminal | Napinacz | bool | ||
kroki/obserwacje | Napinacz | (376,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):