- Deskripsi :
RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang dengan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan kumpulan data dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data di suite setelah saluran umum dibuat.
Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.
Dataset DeepMind Lab memiliki beberapa level dari rangkaian Deepmind Lab yang menantang dan dapat diamati sebagian. Dataset DeepMind Lab dikumpulkan dengan pelatihan yang didistribusikan R2D2 oleh Kapturowski et al., 2018 agen dari awal pada tugas individu. Kami mencatat pengalaman di semua aktor selama seluruh pelatihan berjalan beberapa kali untuk setiap tugas. Detail proses pembuatan dataset dijelaskan dalam Gulcehre et al., 2021 .
Kami merilis kumpulan data untuk lima level DeepMind Lab yang berbeda: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Kami juga merilis kumpulan data snapshot untuk tingkat seekavoid_arena_01
yang kami hasilkan dari kumpulan data dari snapshot R2D2 terlatih dengan tingkat epsilon yang berbeda untuk algoritme epsilon-greedy saat mengevaluasi agen di lingkungan.
Dataset DeepMind Lab cukup berskala besar. Kami menyarankan Anda untuk mencobanya jika Anda tertarik dengan model RL offline skala besar dengan memori.
Beranda : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kode sumber :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
: Menambahkan is_last. -
1.2.0
(default): BGR -> RGB fix untuk pengamatan piksel.
-
Ukuran unduhan :
Unknown size
Tembolok otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 89,144 |
- Struktur fitur :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
episode_id | Tensor | tf.int64 | ||
episode_kembali | Tensor | tf.float32 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | tf.int64 | ||
langkah/diskon | Tensor | tf.float32 | ||
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | FiturDict | |||
langkah/pengamatan/tindakan_terakhir | Tensor | tf.int64 | ||
langkah/pengamatan/penghargaan_terakhir | Tensor | tf.float32 | ||
langkah/pengamatan/piksel | Gambar | (72, 96, 3) | tf.uint8 | |
langkah/hadiah | Tensor | tf.float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
kutipan :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (konfigurasi default)
Ukuran kumpulan data :
847.00 GiB
Contoh ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
Ukuran kumpulan data:
877.76 GiB
Contoh ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
Ukuran kumpulan data:
836.43 GiB
Contoh ( tfds.as_dataframe ):