rlu_dmlab_explore_object_rewards_few

Deskripsi :

RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang berdasarkan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan dataset dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data dalam suite setelah pipeline umum dibuat.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

Kumpulan data DeepMind Lab memiliki beberapa level dari suite Deepmind Lab yang menantang dan dapat diamati sebagian. Kumpulan data DeepMind Lab dikumpulkan dengan pelatihan yang didistribusikan R2D2 oleh Kapturowski et al., Agen 2018 dari awal pada tugas individu. Kami merekam pengalaman semua aktor selama seluruh pelatihan berjalan beberapa kali untuk setiap tugas. Detail proses pembuatan dataset dijelaskan dalam Gulcehre et al., 2021 .

Kami merilis kumpulan data untuk lima level DeepMind Lab yang berbeda: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Kami juga merilis kumpulan data snapshot untuk level seekavoid_arena_01 yang kami buat dari kumpulan data dari snapshot R2D2 terlatih dengan berbagai level epsilon untuk algoritme epsilon-greedy saat mengevaluasi agen di lingkungan.

Dataset DeepMind Lab berskala cukup besar. Kami menyarankan Anda untuk mencobanya jika Anda tertarik dengan model RL offline skala besar dengan memori.

Beranda : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kode sumber : tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versi :
- 1.0.0 : Rilis awal.
- 1.1.0 : Menambahkan is_last.
- 1.2.0 (default): BGR -> perbaikan RGB untuk pengamatan piksel.
Ukuran unduhan : Unknown size
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	89.144

Struktur fitur :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
episode_id	Tensor		int64
episode_return	Tensor		float32
Langkah	Himpunan data
langkah/tindakan	Tensor		int64
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bool
langkah/is_last	Tensor		bool
langkah/is_terminal	Tensor		bool
langkah/pengamatan	fiturDict
langkah/pengamatan/tindakan_terakhir	Tensor		int64
langkah/pengamatan/hadiah_terakhir	Tensor		float32
langkah/pengamatan/piksel	Gambar	(72, 96, 3)	uint8
langkah/hadiah	Tensor		float32

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (konfigurasi default)

Ukuran dataset : 847.00 GiB
Contoh ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

Ukuran dataset : 877.76 GiB
Contoh ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

Ukuran dataset : 836.43 GiB
Contoh ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

rlu_dmlab_explore_object_rewards_few/training_0 (konfigurasi default)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2

rlu_dmlab_explore_object_rewards_few