TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

d4rl_mujoco_hopper

Keterangan :

D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan kumpulan data standar untuk pelatihan dan algoritma benchmarking.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

Deskripsi konfigurasi : Lihat detail selengkapnya tentang tugas dan versinya di https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Beranda : https://sites.google.com/view/d4rl-anonymous
Kode sumber : tfds.d4rl.d4rl_mujoco_hopper.D4rlMujocoHopper
Versi :
- 1.0.0 : Rilis awal.
- 1.1.0 : Ditambahkan is_last.
- 1.2.0 (default): Diperbarui untuk memperhitungkan observasi berikutnya.
Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_hopper/v0-expert (konfigurasi default)

Ukuran unduhan : 51.56 MiB
Ukuran kumpulan data : 64.10 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.029

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v0-medium

Ukuran unduhan : 51.74 MiB
Ukuran kumpulan data : 64.68 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	3.064

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v0-medium-expert

Ukuran unduhan : 62.01 MiB
Ukuran kumpulan data : 77.25 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	2.277

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v0-campuran

Ukuran unduhan : 10.48 MiB
Ukuran kumpulan data : 13.15 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.250

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v0-random

Ukuran unduhan : 51.83 MiB
Ukuran kumpulan data : 66.06 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	8.793

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v1-expert

Ukuran unduhan : 93.19 MiB
Ukuran kumpulan data : 608.03 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.836

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 11)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(3,)	float32
policy/last_fc/weight	Tensor	(3, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(3,)	float32
policy/last_fc_log_std/weight	Tensor	(3, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(6,)	float32
langkah/info/qvel	Tensor	(6,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v1-medium

Ukuran unduhan : 92.03 MiB
Ukuran kumpulan data : 1.78 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	6.328

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 11)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(3,)	float32
policy/last_fc/weight	Tensor	(3, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(3,)	float32
policy/last_fc_log_std/weight	Tensor	(3, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(6,)	float32
langkah/info/qvel	Tensor	(6,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v1-medium-expert

Ukuran unduhan : 184.59 MiB
Ukuran kumpulan data : 230.24 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	8.163

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(6,)	float32
langkah/info/qvel	Tensor	(6,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v1-medium-replay

Ukuran unduhan : 55.65 MiB
Ukuran kumpulan data : 34.78 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.151

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float64),
        'reward': float64,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float64
langkah/diskon	Tensor		float64
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float64
langkah/hadiah	Tensor		float64

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v1-putar ulang penuh

Ukuran unduhan : 183.32 MiB
Ukuran kumpulan data : 114.78 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	2.907

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float64),
        'reward': float64,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float64
langkah/diskon	Tensor		float64
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float64
langkah/hadiah	Tensor		float64

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v1-random

Ukuran unduhan : 91.11 MiB
Ukuran kumpulan data : 130.73 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	45.265

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(6,)	float32
langkah/info/qvel	Tensor	(6,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v2-expert

Ukuran unduhan : 145.37 MiB
Ukuran kumpulan data : 390.40 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.028

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 11)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(3,)	float32
policy/last_fc/weight	Tensor	(3, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(3,)	float32
policy/last_fc_log_std/weight	Tensor	(3, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v2-putar ulang penuh

Ukuran unduhan : 179.29 MiB
Ukuran kumpulan data : 115.04 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	3.515

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v2-medium

Ukuran unduhan : 145.68 MiB
Ukuran kumpulan data : 702.57 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	2.187

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 11)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(3,)	float32
policy/last_fc/weight	Tensor	(3, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(3,)	float32
policy/last_fc_log_std/weight	Tensor	(3, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v2-medium-expert

Ukuran unduhan : 290.43 MiB
Ukuran kumpulan data : 228.28 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	3.214

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v2-medium-replay

Ukuran unduhan : 72.34 MiB
Ukuran kumpulan data : 46.51 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	2.041

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper/v2-random

Ukuran unduhan : 145.46 MiB
Ukuran kumpulan data : 130.72 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	45.240

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(3,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(6,)	float64
langkah/info/qvel	Tensor	(6,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(11,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_hopper Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.