TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

d4rl_mujoco_halfcheetah

Keterangan :

D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan kumpulan data standar untuk pelatihan dan algoritma benchmarking.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

Deskripsi konfigurasi : Lihat detail selengkapnya tentang tugas dan versinya di https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Beranda : https://sites.google.com/view/d4rl-anonymous
Kode sumber : tfds.d4rl.d4rl_mujoco_halfcheetah.D4rlMujocoHalfcheetah
Versi :
- 1.0.0 : Rilis awal.
- 1.0.1 : Dukungan untuk metadata episode dan langkah, serta penyatuan bentuk hadiah di semua konfigurasi.
- 1.1.0 : Ditambahkan is_last.
- 1.2.0 (default): Diperbarui untuk memperhitungkan observasi berikutnya.
Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_halfcheetah/v0-expert (konfigurasi default)

Ukuran unduhan : 83.44 MiB
Ukuran kumpulan data : 98.43 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.002

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-medium

Ukuran unduhan : 82.92 MiB
Ukuran kumpulan data : 98.43 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.002

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-medium-expert

Ukuran unduhan : 166.36 MiB
Ukuran kumpulan data : 196.86 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	2.004

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-campuran

Ukuran unduhan : 8.60 MiB
Ukuran kumpulan data : 9.94 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	101

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-random

Ukuran unduhan : 84.79 MiB
Ukuran kumpulan data : 98.43 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.002

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-expert

Ukuran unduhan : 146.94 MiB
Ukuran kumpulan data : 451.88 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 17)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(6,)	float32
policy/last_fc/weight	Tensor	(6, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(6,)	float32
policy/last_fc_log_std/weight	Tensor	(6, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(9,)	float32
langkah/info/qvel	Tensor	(9,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-medium

Ukuran unduhan : 146.65 MiB
Ukuran kumpulan data : 451.88 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 17)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(6,)	float32
policy/last_fc/weight	Tensor	(6, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(6,)	float32
policy/last_fc_log_std/weight	Tensor	(6, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(9,)	float32
langkah/info/qvel	Tensor	(9,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-medium-expert

Ukuran unduhan : 293.00 MiB
Ukuran kumpulan data : 342.37 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	2.000

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(9,)	float32
langkah/info/qvel	Tensor	(9,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-medium-replay

Ukuran unduhan : 57.68 MiB
Ukuran kumpulan data : 34.59 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	202

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float64
langkah/diskon	Tensor		float64
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float64
langkah/hadiah	Tensor		float64

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-putar ulang penuh

Ukuran unduhan : 285.01 MiB
Ukuran kumpulan data : 171.22 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float64
langkah/diskon	Tensor		float64
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float64
langkah/hadiah	Tensor		float64

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-acak

Ukuran unduhan : 145.19 MiB
Ukuran kumpulan data : 171.18 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float32
langkah/info/qpos	Tensor	(9,)	float32
langkah/info/qvel	Tensor	(9,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-expert

Ukuran unduhan : 226.46 MiB
Ukuran kumpulan data : 451.88 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 17)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(6,)	float32
policy/last_fc/weight	Tensor	(6, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(6,)	float32
policy/last_fc_log_std/weight	Tensor	(6, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-putar ulang penuh

Ukuran unduhan : 277.88 MiB
Ukuran kumpulan data : 171.22 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-medium

Ukuran unduhan : 226.71 MiB
Ukuran kumpulan data : 451.88 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(256, 17)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(6,)	float32
policy/last_fc/weight	Tensor	(6, 256)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(6,)	float32
policy/last_fc_log_std/weight	Tensor	(6, 256)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-medium-expert

Ukuran unduhan : 452.58 MiB
Ukuran kumpulan data : 342.37 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	2.000

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-medium-replay

Ukuran unduhan : 56.69 MiB
Ukuran kumpulan data : 34.59 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	202

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
pengulangan	Tensor		int32
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-acak

Ukuran unduhan : 226.34 MiB
Ukuran kumpulan data : 171.18 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	1.000

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(6,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_probs	Tensor		float64
langkah/info/qpos	Tensor	(9,)	float64
langkah/info/qvel	Tensor	(9,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(17,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.