- Deskripsi :
RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang berdasarkan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan dataset dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data dalam suite setelah pipeline umum dibuat.
Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.
Kumpulan data DeepMind Lab memiliki beberapa level dari suite Deepmind Lab yang menantang dan dapat diamati sebagian. Kumpulan data DeepMind Lab dikumpulkan dengan pelatihan yang didistribusikan R2D2 oleh Kapturowski et al., Agen 2018 dari awal pada tugas individu. Kami merekam pengalaman semua aktor selama seluruh pelatihan berjalan beberapa kali untuk setiap tugas. Detail proses pembuatan dataset dijelaskan dalam Gulcehre et al., 2021 .
Kami merilis kumpulan data untuk lima level DeepMind Lab yang berbeda: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Kami juga merilis kumpulan data snapshot untuk level seekavoid_arena_01
yang kami buat dari kumpulan data dari snapshot R2D2 terlatih dengan berbagai level epsilon untuk algoritme epsilon-greedy saat mengevaluasi agen di lingkungan.
Dataset DeepMind Lab berskala cukup besar. Kami menyarankan Anda untuk mencobanya jika Anda tertarik dengan model RL offline skala besar dengan memori.
Beranda : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kode sumber :
tfds.rl_unplugged.rlu_dmlab_rooms_watermaze.RluDmlabRoomsWatermaze
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
: Menambahkan is_last. -
1.2.0
(default): BGR -> perbaikan RGB untuk pengamatan piksel.
-
Ukuran unduhan :
Unknown size
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
episode_return | Tensor | float32 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | int64 | ||
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/tindakan_terakhir | Tensor | int64 | ||
langkah/pengamatan/hadiah_terakhir | Tensor | float32 | ||
langkah/pengamatan/piksel | Gambar | (72, 96, 3) | uint8 | |
langkah/hadiah | Tensor | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_watermaze/training_0 (konfigurasi default)
Ukuran dataset :
894.50 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 67.876 |
- Contoh ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_1
Ukuran dataset :
898.74 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 66.922 |
- Contoh ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_2
Ukuran dataset :
825.49 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 67.081 |
- Contoh ( tfds.as_dataframe ):