d4rl_mujoco_walker2d

  • Mô tả :

D4RL là một điểm chuẩn mã nguồn mở cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và điểm chuẩn.

Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_walker2d / v0-Expert (cấu hình mặc định)

  • Kích thước tải xuống : 78.41 MiB

  • Kích thước tập dữ liệu : 98.64 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 1.628
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v0-medium

  • Kích thước tải xuống : 80.83 MiB

  • Kích thước tập dữ liệu: 99.72 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 5.315
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v0-medium-Expert

  • Kích thước tải xuống : 159.24 MiB

  • Kích thước tập dữ liệu: 198.36 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

  • Tách :

Tách ra Các ví dụ
'train' 6.943
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v0-mix

  • Kích thước tải xuống : 8.42 MiB

  • Kích thước tập dữ liệu : 10.06 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 501
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v0-random

  • Kích thước tải xuống : 78.41 MiB

  • Kích thước tập dữ liệu: 112.04 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 50,988
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v1-Expert

  • Kích thước tải xuống : 143.06 MiB

  • Kích thước tập dữ liệu: 452.72 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.003
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 17), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(9,), dtype=tf.float32),
            'qvel': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
chính sách Các tính năng
chính sách / fc0 Các tính năng
policy / fc0 / bias Tensor (256,) tf.float32
chính sách / fc0 / trọng lượng Tensor (256, 17) tf.float32
chính sách / fc1 Các tính năng
policy / fc1 / bias Tensor (256,) tf.float32
chính sách / fc1 / trọng lượng Tensor (256, 256) tf.float32
chính sách / last_fc Các tính năng
chính sách / last_fc / bias Tensor (6,) tf.float32
chính sách / last_fc / trọng lượng Tensor (6, 256) tf.float32
chính sách / last_fc_log_std Các tính năng
chính sách / last_fc_log_std / bias Tensor (6,) tf.float32
chính sách / last_fc_log_std / trọng lượng Tensor (6, 256) tf.float32
chính sách / phi tuyến tính Tensor tf.string
chính sách / output_distribution Tensor tf.string
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float32
step / infos / qpos Tensor (9,) tf.float32
step / infos / qvel Tensor (9,) tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v1-medium

  • Kích thước tải xuống : 144.23 MiB

  • Kích thước tập dữ liệu: 510.08 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.207
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 17), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(9,), dtype=tf.float32),
            'qvel': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
chính sách Các tính năng
chính sách / fc0 Các tính năng
policy / fc0 / bias Tensor (256,) tf.float32
chính sách / fc0 / trọng lượng Tensor (256, 17) tf.float32
chính sách / fc1 Các tính năng
policy / fc1 / bias Tensor (256,) tf.float32
chính sách / fc1 / trọng lượng Tensor (256, 256) tf.float32
chính sách / last_fc Các tính năng
chính sách / last_fc / bias Tensor (6,) tf.float32
chính sách / last_fc / trọng lượng Tensor (6, 256) tf.float32
chính sách / last_fc_log_std Các tính năng
chính sách / last_fc_log_std / bias Tensor (6,) tf.float32
chính sách / last_fc_log_std / trọng lượng Tensor (6, 256) tf.float32
chính sách / phi tuyến tính Tensor tf.string
chính sách / output_distribution Tensor tf.string
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float32
step / infos / qpos Tensor (9,) tf.float32
step / infos / qvel Tensor (9,) tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v1-medium-Expert

  • Kích thước tải xuống : 286.69 MiB

  • Kích thước tập dữ liệu: 342.46 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 2.209
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(9,), dtype=tf.float32),
            'qvel': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float32
step / infos / qpos Tensor (9,) tf.float32
step / infos / qvel Tensor (9,) tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v1-medium-replay

  • Kích thước tải xuống : 84.37 MiB

  • Kích thước tập dữ liệu : 52.10 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 1,093
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float64),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
các bước Dataset
các bước / hành động Tensor (6,) tf.float64
bước / chiết khấu Tensor tf.float64
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float64
bước / phần thưởng Tensor tf.float64

d4rl_mujoco_walker2d / v1-full-replay

  • Kích thước tải xuống : 278.95 MiB

  • Kích thước tập dữ liệu: 171.66 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

  • Tách :

Tách ra Các ví dụ
'train' 1.888
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float64),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
các bước Dataset
các bước / hành động Tensor (6,) tf.float64
bước / chiết khấu Tensor tf.float64
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float64
bước / phần thưởng Tensor tf.float64

d4rl_mujoco_walker2d / v1-random

  • Kích thước tải xuống : 132.36 MiB

  • Kích thước tập dữ liệu: 192.06 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

  • Tách :

Tách ra Các ví dụ
'train' 48.790
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float32,
            'qpos': Tensor(shape=(9,), dtype=tf.float32),
            'qvel': Tensor(shape=(9,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float32
step / infos / qpos Tensor (9,) tf.float32
step / infos / qvel Tensor (9,) tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v2-Expert

  • Kích thước tải xuống : 219.89 MiB

  • Kích thước tập dữ liệu: 452.16 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.001
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 17), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
chính sách Các tính năng
chính sách / fc0 Các tính năng
policy / fc0 / bias Tensor (256,) tf.float32
chính sách / fc0 / trọng lượng Tensor (256, 17) tf.float32
chính sách / fc1 Các tính năng
policy / fc1 / bias Tensor (256,) tf.float32
chính sách / fc1 / trọng lượng Tensor (256, 256) tf.float32
chính sách / last_fc Các tính năng
chính sách / last_fc / bias Tensor (6,) tf.float32
chính sách / last_fc / trọng lượng Tensor (6, 256) tf.float32
chính sách / last_fc_log_std Các tính năng
chính sách / last_fc_log_std / bias Tensor (6,) tf.float32
chính sách / last_fc_log_std / trọng lượng Tensor (6, 256) tf.float32
chính sách / phi tuyến tính Tensor tf.string
chính sách / output_distribution Tensor tf.string
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v2-full-replay

  • Kích thước tải xuống : 271.91 MiB

  • Kích thước tập dữ liệu: 171.66 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

  • Tách :

Tách ra Các ví dụ
'train' 1.888
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v2-medium

  • Kích thước tải xuống : 221.50 MiB

  • Kích thước tập dữ liệu: 505.58 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.191
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 17), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=tf.float32),
            'weight': Tensor(shape=(6, 256), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
chính sách Các tính năng
chính sách / fc0 Các tính năng
policy / fc0 / bias Tensor (256,) tf.float32
chính sách / fc0 / trọng lượng Tensor (256, 17) tf.float32
chính sách / fc1 Các tính năng
policy / fc1 / bias Tensor (256,) tf.float32
chính sách / fc1 / trọng lượng Tensor (256, 256) tf.float32
chính sách / last_fc Các tính năng
chính sách / last_fc / bias Tensor (6,) tf.float32
chính sách / last_fc / trọng lượng Tensor (6, 256) tf.float32
chính sách / last_fc_log_std Các tính năng
chính sách / last_fc_log_std / bias Tensor (6,) tf.float32
chính sách / last_fc_log_std / trọng lượng Tensor (6, 256) tf.float32
chính sách / phi tuyến tính Tensor tf.string
chính sách / output_distribution Tensor tf.string
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v2-medium-Expert

  • Kích thước tải xuống : 440.79 MiB

  • Kích thước tập dữ liệu: 342.45 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 2.191
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v2-medium-replay

  • Kích thước tải xuống : 82.32 MiB

  • Kích thước tập dữ liệu : 52.10 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 1,093
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': tf.string,
    'iteration': tf.int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
thuật toán Tensor tf.string
sự lặp lại Tensor tf.int32
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32

d4rl_mujoco_walker2d / v2-random

  • Kích thước tải xuống : 206.10 MiB

  • Kích thước tập dữ liệu: 192.11 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

  • Tách :

Tách ra Các ví dụ
'train' 48.908
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_probs': tf.float64,
            'qpos': Tensor(shape=(9,), dtype=tf.float64),
            'qvel': Tensor(shape=(9,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
các bước Dataset
các bước / hành động Tensor (6,) tf.float32
bước / chiết khấu Tensor tf.float32
các bước / thông tin Các tính năng
step / infos / action_log_probs Tensor tf.float64
step / infos / qpos Tensor (9,) tf.float64
step / infos / qvel Tensor (9,) tf.float64
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Tensor (17,) tf.float32
bước / phần thưởng Tensor tf.float32