- Deskripsi :
D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan set data standar untuk pelatihan dan algoritma benchmarking.
Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.
Deskripsi konfigurasi : Lihat detail lebih lanjut tentang tugas dan versinya di https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Beranda : https://sites.google.com/view/d4rl/home
Kode sumber :
tfds.d4rl.d4rl_mujoco_hopper.D4rlMujocoHopper
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
: Menambahkan is_last. -
1.2.0
(default): Diperbarui untuk memperhitungkan pengamatan berikutnya.
-
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
kutipan :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_hopper/v0-expert (konfigurasi default)
Ukuran unduhan :
51.56 MiB
Ukuran kumpulan data:
64.10 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1.029 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-medium
Ukuran unduhan :
51.74 MiB
Ukuran kumpulan data:
64.68 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3.064 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-medium-expert
Ukuran unduhan :
62.01 MiB
Ukuran kumpulan data:
77.25 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2.277 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-campuran
Ukuran unduhan :
10.48 MiB
Ukuran kumpulan data :
13.15 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1.250 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v0-acak
Ukuran unduhan :
51.83 MiB
Ukuran kumpulan data:
66.06 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 8.793 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-ahli
Ukuran unduhan :
93.19 MiB
Ukuran kumpulan data:
608.03 MiB
Tembolok otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1,836 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
aturan | FiturDict | |||
kebijakan/fc0 | FiturDict | |||
kebijakan/fc0/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc/berat | Tensor | (256, 11) | tf.float32 | |
kebijakan/fc1 | FiturDict | |||
kebijakan/fc1/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc1/berat | Tensor | (256, 256) | tf.float32 | |
kebijakan/terakhir_fc | FiturDict | |||
kebijakan/last_fc/bias | Tensor | (3,) | tf.float32 | |
kebijakan/fc_terakhir/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/last_fc_log_std | FiturDict | |||
kebijakan/last_fc_log_std/bias | Tensor | (3,) | tf.float32 | |
kebijakan/last_fc_log_std/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/nonlinier | Tensor | tf.string | ||
kebijakan/distribusi_output | Tensor | tf.string | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float32 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float32 | |
langkah/info/qvel | Tensor | (6,) | tf.float32 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-medium
Ukuran unduhan :
92.03 MiB
Ukuran kumpulan data :
1.78 GiB
Tembolok otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 6.328 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
aturan | FiturDict | |||
kebijakan/fc0 | FiturDict | |||
kebijakan/fc0/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc/berat | Tensor | (256, 11) | tf.float32 | |
kebijakan/fc1 | FiturDict | |||
kebijakan/fc1/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc1/berat | Tensor | (256, 256) | tf.float32 | |
kebijakan/terakhir_fc | FiturDict | |||
kebijakan/last_fc/bias | Tensor | (3,) | tf.float32 | |
kebijakan/fc_terakhir/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/last_fc_log_std | FiturDict | |||
kebijakan/last_fc_log_std/bias | Tensor | (3,) | tf.float32 | |
kebijakan/last_fc_log_std/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/nonlinier | Tensor | tf.string | ||
kebijakan/distribusi_output | Tensor | tf.string | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float32 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float32 | |
langkah/info/qvel | Tensor | (6,) | tf.float32 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-medium-expert
Ukuran unduhan :
184.59 MiB
Ukuran kumpulan data:
230.24 MiB
Tembolok otomatis ( dokumentasi ): Hanya ketika
shuffle_files=False
(kereta)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 8.163 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float32 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float32 | |
langkah/info/qvel | Tensor | (6,) | tf.float32 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-medium-replay
Ukuran unduhan :
55.65 MiB
Ukuran kumpulan data:
34.78 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1,151 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float64 | |
langkah/diskon | Tensor | tf.float64 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float64 | |
langkah/hadiah | Tensor | tf.float64 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-full-replay
Ukuran unduhan :
183.32 MiB
Ukuran kumpulan data:
114.78 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2.907 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float64),
'discount': tf.float64,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float64 | |
langkah/diskon | Tensor | tf.float64 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float64 | |
langkah/hadiah | Tensor | tf.float64 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v1-acak
Ukuran unduhan :
91.11 MiB
Ukuran kumpulan data:
130.73 MiB
Tembolok otomatis ( dokumentasi ): Hanya ketika
shuffle_files=False
(kereta)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 45.265 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float32,
'qpos': Tensor(shape=(6,), dtype=tf.float32),
'qvel': Tensor(shape=(6,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float32 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float32 | |
langkah/info/qvel | Tensor | (6,) | tf.float32 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-ahli
Ukuran unduhan :
145.37 MiB
Ukuran kumpulan data:
390.40 MiB
Tembolok otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1.028 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
aturan | FiturDict | |||
kebijakan/fc0 | FiturDict | |||
kebijakan/fc0/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc/berat | Tensor | (256, 11) | tf.float32 | |
kebijakan/fc1 | FiturDict | |||
kebijakan/fc1/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc1/berat | Tensor | (256, 256) | tf.float32 | |
kebijakan/terakhir_fc | FiturDict | |||
kebijakan/last_fc/bias | Tensor | (3,) | tf.float32 | |
kebijakan/fc_terakhir/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/last_fc_log_std | FiturDict | |||
kebijakan/last_fc_log_std/bias | Tensor | (3,) | tf.float32 | |
kebijakan/last_fc_log_std/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/nonlinier | Tensor | tf.string | ||
kebijakan/distribusi_output | Tensor | tf.string | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-full-replay
Ukuran unduhan :
179.29 MiB
Ukuran kumpulan data:
115.04 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3,515 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-medium
Ukuran unduhan :
145.68 MiB
Ukuran kumpulan data:
702.57 MiB
Tembolok otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2.187 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 11), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(3,), dtype=tf.float32),
'weight': Tensor(shape=(3, 256), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
aturan | FiturDict | |||
kebijakan/fc0 | FiturDict | |||
kebijakan/fc0/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc/berat | Tensor | (256, 11) | tf.float32 | |
kebijakan/fc1 | FiturDict | |||
kebijakan/fc1/bias | Tensor | (256,) | tf.float32 | |
kebijakan/fc1/berat | Tensor | (256, 256) | tf.float32 | |
kebijakan/terakhir_fc | FiturDict | |||
kebijakan/last_fc/bias | Tensor | (3,) | tf.float32 | |
kebijakan/fc_terakhir/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/last_fc_log_std | FiturDict | |||
kebijakan/last_fc_log_std/bias | Tensor | (3,) | tf.float32 | |
kebijakan/last_fc_log_std/berat | Tensor | (3, 256) | tf.float32 | |
kebijakan/nonlinier | Tensor | tf.string | ||
kebijakan/distribusi_output | Tensor | tf.string | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-medium-expert
Ukuran unduhan :
290.43 MiB
Ukuran kumpulan data:
228.28 MiB
Tembolok otomatis ( dokumentasi ): Hanya ketika
shuffle_files=False
(kereta)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3.214 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-medium-replay
Ukuran unduhan :
72.34 MiB
Ukuran kumpulan data:
46.51 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2.041 |
- Struktur fitur :
FeaturesDict({
'algorithm': tf.string,
'iteration': tf.int32,
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | tf.string | ||
pengulangan | Tensor | tf.int32 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_mujoco_hopper/v2-random
Ukuran unduhan :
145.46 MiB
Ukuran kumpulan data:
130.72 MiB
Tembolok otomatis ( dokumentasi ): Hanya ketika
shuffle_files=False
(kereta)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 45.240 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_probs': tf.float64,
'qpos': Tensor(shape=(6,), dtype=tf.float64),
'qvel': Tensor(shape=(6,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(11,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (3,) | tf.float32 | |
langkah/diskon | Tensor | tf.float32 | ||
langkah/info | FiturDict | |||
langkah/info/tindakan_log_probs | Tensor | tf.float64 | ||
langkah/infos/qpos | Tensor | (6,) | tf.float64 | |
langkah/info/qvel | Tensor | (6,) | tf.float64 | |
langkah/adalah_pertama | Tensor | tf.bool | ||
langkah/adalah_terakhir | Tensor | tf.bool | ||
langkah/is_terminal | Tensor | tf.bool | ||
langkah/pengamatan | Tensor | (11,) | tf.float32 | |
langkah/hadiah | Tensor | tf.float32 |
- Contoh ( tfds.as_dataframe ):