rlu_dmlab_explore_object_rewards_few

opis :

RL Unplugged to zestaw testów porównawczych do uczenia się ze wzmacnianiem w trybie offline. RL Unplugged zostało zaprojektowane z myślą o następujących kwestiach: aby ułatwić użytkowanie, zapewniamy zestawy danych z ujednoliconym interfejsem API, który ułatwia praktykowi pracę ze wszystkimi danymi w pakiecie po ustaleniu ogólnego potoku.

Zestawy danych są zgodne z formatem RLDS, aby reprezentować kroki i epizody.

Zbiór danych DeepMind Lab ma kilka poziomów z wymagającego, częściowo obserwowalnego zestawu Deepmind Lab . Zbiór danych DeepMind Lab jest gromadzony poprzez szkolenie rozproszonych agentów R2D2 przez Kapturowski et al., 2018 od podstaw w zakresie poszczególnych zadań. Zarejestrowaliśmy doświadczenie wszystkich aktorów podczas całego treningu kilka razy dla każdego zadania. Szczegóły procesu generowania zestawu danych opisano w Gulcehre i in., 2021 .

Publikujemy zestawy danych dla pięciu różnych poziomów DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Udostępniamy również zestawy danych migawek dla poziomu seekavoid_arena_01 , które wygenerowaliśmy na podstawie przeszkolonej migawki R2D2 z różnymi poziomami epsilonów dla algorytmu epsilon-chciwy podczas oceny agenta w środowisku.

Zbiór danych DeepMind Lab jest dość duży. Zalecamy wypróbowanie go, jeśli interesują Cię modele RL offline na dużą skalę z pamięcią.

Strona główna : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kod źródłowy : tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Wersje :
- 1.0.0 : Pierwsza wersja.
- 1.1.0 : Dodano is_last.
- 1.2.0 (domyślnie): Poprawka BGR -> RGB dla obserwacji pikseli.
Rozmiar pliku do pobrania : Unknown size
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Rozdzielać	Przykłady
`'train'`	89144

Struktura funkcji :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
identyfikator_odcinka	Napinacz		int64
odcinek_powrót	Napinacz		pływak32
kroki	Zbiór danych
kroki/działanie	Napinacz		int64
kroki/rabat	Napinacz		pływak32
kroki/jest_pierwszy	Napinacz		bool
kroki/jest_ostatni	Napinacz		bool
kroki/jest_terminalem	Napinacz		bool
kroki/obserwacja	FunkcjeDict
kroki/obserwacja/ostatnia_akcja	Napinacz		int64
kroki/obserwacja/ostatnia_nagroda	Napinacz		pływak32
kroki/obserwacja/piksele	Obraz	(72, 96, 3)	uint8
kroki/nagroda	Napinacz		pływak32

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (domyślna konfiguracja)

Rozmiar zestawu danych : 847.00 GiB
Przykłady ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

Rozmiar zestawu danych : 877.76 GiB
Przykłady ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

Rozmiar zestawu danych : 836.43 GiB
Przykłady ( tfds.as_dataframe ):