rlu_dmlab_explore_object_rewards_few

  • Deskripsi :

RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang dengan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan kumpulan data dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data di suite setelah saluran umum dibuat.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

Dataset DeepMind Lab memiliki beberapa level dari rangkaian Deepmind Lab yang menantang dan dapat diamati sebagian. Dataset DeepMind Lab dikumpulkan dengan pelatihan yang didistribusikan R2D2 oleh Kapturowski et al., 2018 agen dari awal pada tugas individu. Kami mencatat pengalaman di semua aktor selama seluruh pelatihan berjalan beberapa kali untuk setiap tugas. Detail proses pembuatan dataset dijelaskan dalam Gulcehre et al., 2021 .

Kami merilis kumpulan data untuk lima level DeepMind Lab yang berbeda: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Kami juga merilis kumpulan data snapshot untuk tingkat seekavoid_arena_01 yang kami hasilkan dari kumpulan data dari snapshot R2D2 terlatih dengan tingkat epsilon yang berbeda untuk algoritme epsilon-greedy saat mengevaluasi agen di lingkungan.

Dataset DeepMind Lab cukup berskala besar. Kami menyarankan Anda untuk mencobanya jika Anda tertarik dengan model RL offline skala besar dengan memori.

Membelah Contoh
'train' 89,144
  • Struktur fitur :
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
episode_id Tensor tf.int64
episode_kembali Tensor tf.float32
Langkah Himpunan data
langkah/tindakan Tensor tf.int64
langkah/diskon Tensor tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan FiturDict
langkah/pengamatan/tindakan_terakhir Tensor tf.int64
langkah/pengamatan/penghargaan_terakhir Tensor tf.float32
langkah/pengamatan/piksel Gambar (72, 96, 3) tf.uint8
langkah/hadiah Tensor tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (konfigurasi default)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2