d4rl_mujoco_hopper

  • Deskripsi :

D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan set data standar untuk pelatihan dan algoritma benchmarking.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_hopper/v0-expert (konfigurasi default)

  • Ukuran unduhan : 51.56 MiB

  • Ukuran kumpulan data: 64.10 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 1.029
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v0-medium

  • Ukuran unduhan : 51.74 MiB

  • Ukuran kumpulan data: 64.68 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 3.064
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v0-medium-expert

  • Ukuran unduhan : 62.01 MiB

  • Ukuran kumpulan data: 77.25 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 2.277
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v0-campuran

  • Ukuran unduhan : 10.48 MiB

  • Ukuran kumpulan data : 13.15 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 1.250
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v0-acak

  • Ukuran unduhan : 51.83 MiB

  • Ukuran kumpulan data: 66.06 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 8.793
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v1-ahli

  • Ukuran unduhan : 93.19 MiB

  • Ukuran kumpulan data: 608.03 MiB

  • Tembolok otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1,836
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
aturan FiturDict
kebijakan/fc0 FiturDict
kebijakan/fc0/bias Tensor (256,) tf.float32
kebijakan/fc/berat Tensor (256, 11) tf.float32
kebijakan/fc1 FiturDict
kebijakan/fc1/bias Tensor (256,) tf.float32
kebijakan/fc1/berat Tensor (256, 256) tf.float32
kebijakan/terakhir_fc FiturDict
kebijakan/last_fc/bias Tensor (3,) tf.float32
kebijakan/fc_terakhir/berat Tensor (3, 256) tf.float32
kebijakan/last_fc_log_std FiturDict
kebijakan/last_fc_log_std/bias Tensor (3,) tf.float32
kebijakan/last_fc_log_std/berat Tensor (3, 256) tf.float32
kebijakan/nonlinier Tensor tf.string
kebijakan/distribusi_output Tensor tf.string
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float32
langkah/infos/qpos Tensor (6,) tf.float32
langkah/info/qvel Tensor (6,) tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v1-medium

  • Ukuran unduhan : 92.03 MiB

  • Ukuran kumpulan data : 1.78 GiB

  • Tembolok otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 6.328
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
aturan FiturDict
kebijakan/fc0 FiturDict
kebijakan/fc0/bias Tensor (256,) tf.float32
kebijakan/fc/berat Tensor (256, 11) tf.float32
kebijakan/fc1 FiturDict
kebijakan/fc1/bias Tensor (256,) tf.float32
kebijakan/fc1/berat Tensor (256, 256) tf.float32
kebijakan/terakhir_fc FiturDict
kebijakan/last_fc/bias Tensor (3,) tf.float32
kebijakan/fc_terakhir/berat Tensor (3, 256) tf.float32
kebijakan/last_fc_log_std FiturDict
kebijakan/last_fc_log_std/bias Tensor (3,) tf.float32
kebijakan/last_fc_log_std/berat Tensor (3, 256) tf.float32
kebijakan/nonlinier Tensor tf.string
kebijakan/distribusi_output Tensor tf.string
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float32
langkah/infos/qpos Tensor (6,) tf.float32
langkah/info/qvel Tensor (6,) tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v1-medium-expert

  • Ukuran unduhan : 184.59 MiB

  • Ukuran kumpulan data: 230.24 MiB

  • Tembolok otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)

  • Perpecahan :

Membelah Contoh
'train' 8.163
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float32
langkah/infos/qpos Tensor (6,) tf.float32
langkah/info/qvel Tensor (6,) tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v1-medium-replay

  • Ukuran unduhan : 55.65 MiB

  • Ukuran kumpulan data: 34.78 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 1,151
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float64),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float64
langkah/diskon Tensor tf.float64
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float64
langkah/hadiah Tensor tf.float64

d4rl_mujoco_hopper/v1-full-replay

  • Ukuran unduhan : 183.32 MiB

  • Ukuran kumpulan data: 114.78 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 2.907
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float64),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float64
langkah/diskon Tensor tf.float64
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float64
langkah/hadiah Tensor tf.float64

d4rl_mujoco_hopper/v1-acak

  • Ukuran unduhan : 91.11 MiB

  • Ukuran kumpulan data: 130.73 MiB

  • Tembolok otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)

  • Perpecahan :

Membelah Contoh
'train' 45.265
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(6,), dtype=tf.float32),
            'qvel': Tensor(shape=(6,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float32
langkah/infos/qpos Tensor (6,) tf.float32
langkah/info/qvel Tensor (6,) tf.float32
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v2-ahli

  • Ukuran unduhan : 145.37 MiB

  • Ukuran kumpulan data: 390.40 MiB

  • Tembolok otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.028
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
aturan FiturDict
kebijakan/fc0 FiturDict
kebijakan/fc0/bias Tensor (256,) tf.float32
kebijakan/fc/berat Tensor (256, 11) tf.float32
kebijakan/fc1 FiturDict
kebijakan/fc1/bias Tensor (256,) tf.float32
kebijakan/fc1/berat Tensor (256, 256) tf.float32
kebijakan/terakhir_fc FiturDict
kebijakan/last_fc/bias Tensor (3,) tf.float32
kebijakan/fc_terakhir/berat Tensor (3, 256) tf.float32
kebijakan/last_fc_log_std FiturDict
kebijakan/last_fc_log_std/bias Tensor (3,) tf.float32
kebijakan/last_fc_log_std/berat Tensor (3, 256) tf.float32
kebijakan/nonlinier Tensor tf.string
kebijakan/distribusi_output Tensor tf.string
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v2-full-replay

  • Ukuran unduhan : 179.29 MiB

  • Ukuran kumpulan data: 115.04 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 3,515
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v2-medium

  • Ukuran unduhan : 145.68 MiB

  • Ukuran kumpulan data: 702.57 MiB

  • Tembolok otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 2.187
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 11), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=tf.float32),
            'weight': Tensor(shape=(3, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
aturan FiturDict
kebijakan/fc0 FiturDict
kebijakan/fc0/bias Tensor (256,) tf.float32
kebijakan/fc/berat Tensor (256, 11) tf.float32
kebijakan/fc1 FiturDict
kebijakan/fc1/bias Tensor (256,) tf.float32
kebijakan/fc1/berat Tensor (256, 256) tf.float32
kebijakan/terakhir_fc FiturDict
kebijakan/last_fc/bias Tensor (3,) tf.float32
kebijakan/fc_terakhir/berat Tensor (3, 256) tf.float32
kebijakan/last_fc_log_std FiturDict
kebijakan/last_fc_log_std/bias Tensor (3,) tf.float32
kebijakan/last_fc_log_std/berat Tensor (3, 256) tf.float32
kebijakan/nonlinier Tensor tf.string
kebijakan/distribusi_output Tensor tf.string
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v2-medium-expert

  • Ukuran unduhan : 290.43 MiB

  • Ukuran kumpulan data: 228.28 MiB

  • Tembolok otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)

  • Perpecahan :

Membelah Contoh
'train' 3.214
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v2-medium-replay

  • Ukuran unduhan : 72.34 MiB

  • Ukuran kumpulan data: 46.51 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 2.041
  • Struktur fitur :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
algoritma Tensor tf.string
pengulangan Tensor tf.int32
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32

d4rl_mujoco_hopper/v2-random

  • Ukuran unduhan : 145.46 MiB

  • Ukuran kumpulan data: 130.72 MiB

  • Tembolok otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)

  • Perpecahan :

Membelah Contoh
'train' 45.240
  • Struktur fitur :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(6,), dtype=tf.float64),
            'qvel': Tensor(shape=(6,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk tipe D Keterangan
FiturDict
Langkah Himpunan data
langkah/tindakan Tensor (3,) tf.float32
langkah/diskon Tensor tf.float32
langkah/info FiturDict
langkah/info/tindakan_log_probs Tensor tf.float64
langkah/infos/qpos Tensor (6,) tf.float64
langkah/info/qvel Tensor (6,) tf.float64
langkah/adalah_pertama Tensor tf.bool
langkah/adalah_terakhir Tensor tf.bool
langkah/is_terminal Tensor tf.bool
langkah/pengamatan Tensor (11,) tf.float32
langkah/hadiah Tensor tf.float32