- Keterangan :
D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan kumpulan data standar untuk pelatihan dan algoritma benchmarking.
Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.
Deskripsi konfigurasi : Lihat detail selengkapnya tentang tugas dan versinya di https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Kode sumber :
tfds.d4rl.d4rl_adroit_hammer.D4rlAdroitHammer
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
(default): Ditambahkan is_last.
-
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_hammer/v0-human (konfigurasi default)
Ukuran unduhan :
5.33 MiB
Ukuran kumpulan data :
6.10 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 70 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(33,), dtype=float32),
'qvel': Tensor(shape=(33,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(46,), dtype=float32),
'reward': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (26,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/info | FiturDict | |||
langkah/info/qpos | Tensor | (33,) | float32 | |
langkah/info/qvel | Tensor | (33,) | float32 | |
langkah/adalah_pertama | Tensor | bodoh | ||
langkah/adalah_terakhir | Tensor | bodoh | ||
langkah/is_terminal | Tensor | bodoh | ||
langkah/pengamatan | Tensor | (46,) | float32 | |
langkah/hadiah | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_adroit_hammer/v0-kloning
Ukuran unduhan :
644.69 MiB
Ukuran kumpulan data :
538.97 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 5.594 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=float32),
'discount': float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(33,), dtype=float64),
'qvel': Tensor(shape=(33,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(46,), dtype=float64),
'reward': float64,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (26,) | float32 | |
langkah/diskon | Tensor | float64 | ||
langkah/info | FiturDict | |||
langkah/info/qpos | Tensor | (33,) | float64 | |
langkah/info/qvel | Tensor | (33,) | float64 | |
langkah/adalah_pertama | Tensor | bodoh | ||
langkah/adalah_terakhir | Tensor | bodoh | ||
langkah/is_terminal | Tensor | bodoh | ||
langkah/pengamatan | Tensor | (46,) | float64 | |
langkah/hadiah | Tensor | float64 |
- Contoh ( tfds.as_dataframe ):
d4rl_adroit_hammer/v0-expert
Ukuran unduhan :
529.91 MiB
Ukuran kumpulan data :
737.00 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 5.000 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(26,), dtype=float32),
'action_mean': Tensor(shape=(26,), dtype=float32),
'qpos': Tensor(shape=(33,), dtype=float32),
'qvel': Tensor(shape=(33,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(46,), dtype=float32),
'reward': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (26,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/info | FiturDict | |||
langkah/info/action_logstd | Tensor | (26,) | float32 | |
langkah/info/action_mean | Tensor | (26,) | float32 | |
langkah/info/qpos | Tensor | (33,) | float32 | |
langkah/info/qvel | Tensor | (33,) | float32 | |
langkah/adalah_pertama | Tensor | bodoh | ||
langkah/adalah_terakhir | Tensor | bodoh | ||
langkah/is_terminal | Tensor | bodoh | ||
langkah/pengamatan | Tensor | (46,) | float32 | |
langkah/hadiah | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_adroit_hammer/v1-human
Ukuran unduhan :
5.35 MiB
Ukuran kumpulan data :
6.34 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 25 |
- Struktur fitur :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'board_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(33,), dtype=float32),
'qvel': Tensor(shape=(33,), dtype=float32),
'target_pos': Tensor(shape=(3,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(46,), dtype=float32),
'reward': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (26,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/info | FiturDict | |||
langkah/info/board_pos | Tensor | (3,) | float32 | |
langkah/info/qpos | Tensor | (33,) | float32 | |
langkah/info/qvel | Tensor | (33,) | float32 | |
langkah/info/target_pos | Tensor | (3,) | float32 | |
langkah/adalah_pertama | Tensor | bodoh | ||
langkah/adalah_terakhir | Tensor | bodoh | ||
langkah/is_terminal | Tensor | bodoh | ||
langkah/pengamatan | Tensor | (46,) | float32 | |
langkah/hadiah | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_adroit_hammer/v1-kloning
Ukuran unduhan :
425.93 MiB
Ukuran kumpulan data :
1.68 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3.606 |
- Struktur fitur :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(46, 256), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(26,), dtype=float32),
'weight': Tensor(shape=(256, 26), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'board_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(33,), dtype=float32),
'qvel': Tensor(shape=(33,), dtype=float32),
'target_pos': Tensor(shape=(3,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(46,), dtype=float32),
'reward': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | rangkaian | ||
kebijakan | FiturDict | |||
kebijakan/fc0 | FiturDict | |||
kebijakan/fc0/bias | Tensor | (256,) | float32 | |
kebijakan/fc0/bobot | Tensor | (46, 256) | float32 | |
kebijakan/fc1 | FiturDict | |||
kebijakan/fc1/bias | Tensor | (256,) | float32 | |
kebijakan/fc1/bobot | Tensor | (256, 256) | float32 | |
kebijakan/last_fc | FiturDict | |||
kebijakan/last_fc/bias | Tensor | (26,) | float32 | |
policy/last_fc/weight | Tensor | (256, 26) | float32 | |
kebijakan/nonlinier | Tensor | rangkaian | ||
kebijakan/output_distribusi | Tensor | rangkaian | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (26,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/info | FiturDict | |||
langkah/info/board_pos | Tensor | (3,) | float32 | |
langkah/info/qpos | Tensor | (33,) | float32 | |
langkah/info/qvel | Tensor | (33,) | float32 | |
langkah/info/target_pos | Tensor | (3,) | float32 | |
langkah/adalah_pertama | Tensor | bodoh | ||
langkah/adalah_terakhir | Tensor | bodoh | ||
langkah/is_terminal | Tensor | bodoh | ||
langkah/pengamatan | Tensor | (46,) | float32 | |
langkah/hadiah | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):
d4rl_adroit_hammer/v1-expert
Ukuran unduhan :
531.24 MiB
Ukuran kumpulan data :
843.54 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 5.000 |
- Struktur fitur :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=float32),
'weight': Tensor(shape=(32, 46), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=float32),
'weight': Tensor(shape=(32, 32), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(26,), dtype=float32),
'weight': Tensor(shape=(26, 32), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(26,), dtype=float32),
'weight': Tensor(shape=(26, 32), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(26,), dtype=float32),
'action_mean': Tensor(shape=(26,), dtype=float32),
'board_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(33,), dtype=float32),
'qvel': Tensor(shape=(33,), dtype=float32),
'target_pos': Tensor(shape=(3,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(46,), dtype=float32),
'reward': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
algoritma | Tensor | rangkaian | ||
kebijakan | FiturDict | |||
kebijakan/fc0 | FiturDict | |||
kebijakan/fc0/bias | Tensor | (32,) | float32 | |
kebijakan/fc0/bobot | Tensor | (32, 46) | float32 | |
kebijakan/fc1 | FiturDict | |||
kebijakan/fc1/bias | Tensor | (32,) | float32 | |
kebijakan/fc1/bobot | Tensor | (32, 32) | float32 | |
kebijakan/last_fc | FiturDict | |||
kebijakan/last_fc/bias | Tensor | (26,) | float32 | |
policy/last_fc/weight | Tensor | (26, 32) | float32 | |
kebijakan/last_fc_log_std | FiturDict | |||
kebijakan/last_fc_log_std/bias | Tensor | (26,) | float32 | |
policy/last_fc_log_std/weight | Tensor | (26, 32) | float32 | |
kebijakan/nonlinier | Tensor | rangkaian | ||
kebijakan/output_distribusi | Tensor | rangkaian | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (26,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/info | FiturDict | |||
langkah/info/action_log_std | Tensor | (26,) | float32 | |
langkah/info/action_mean | Tensor | (26,) | float32 | |
langkah/info/board_pos | Tensor | (3,) | float32 | |
langkah/info/qpos | Tensor | (33,) | float32 | |
langkah/info/qvel | Tensor | (33,) | float32 | |
langkah/info/target_pos | Tensor | (3,) | float32 | |
langkah/adalah_pertama | Tensor | bodoh | ||
langkah/adalah_terakhir | Tensor | bodoh | ||
langkah/is_terminal | Tensor | bodoh | ||
langkah/pengamatan | Tensor | (46,) | float32 | |
langkah/hadiah | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):