
  • Mô tả :

D4RL là một điểm chuẩn mã nguồn mở cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và đo điểm chuẩn.

Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và giai đoạn.

    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},

d4rl_adroit_pen/v0-human (cấu hình mặc định)

Tách ra ví dụ
'train' 50
  • Cấu trúc tính năng :
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (24,) phao32
bước/giảm giá tenxơ phao32
các bước/thông tin Tính năngDict
các bước/thông tin/qpos tenxơ (30,) phao32
các bước/thông tin/qvel tenxơ (30,) phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (45,) phao32
bước/phần thưởng tenxơ phao32

d4rl_adroit_pen/v0-nhân bản

Tách ra ví dụ
'train' 5,023
  • Cấu trúc tính năng :
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float64),
        'reward': float64,
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (24,) phao32
bước/giảm giá tenxơ phao64
các bước/thông tin Tính năngDict
các bước/thông tin/qpos tenxơ (30,) phao64
các bước/thông tin/qvel tenxơ (30,) phao64
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (45,) phao64
bước/phần thưởng tenxơ phao64

d4rl_adroit_pen/v0-chuyên gia

Tách ra ví dụ
'train' 5.000
  • Cấu trúc tính năng :
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(24,), dtype=float32),
            'action_mean': Tensor(shape=(24,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (24,) phao32
bước/giảm giá tenxơ phao32
các bước/thông tin Tính năngDict
các bước/thông tin/action_logstd tenxơ (24,) phao32
các bước/thông tin/action_mean tenxơ (24,) phao32
các bước/thông tin/qpos tenxơ (30,) phao32
các bước/thông tin/qvel tenxơ (30,) phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (45,) phao32
bước/phần thưởng tenxơ phao32


Tách ra ví dụ
'train' 25
  • Cấu trúc tính năng :
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bước tập dữ liệu
bước/hành động tenxơ (24,) phao32
bước/giảm giá tenxơ phao32
các bước/thông tin Tính năngDict
các bước/thông tin/desired_orien tenxơ (4,) phao32
các bước/thông tin/qpos tenxơ (30,) phao32
các bước/thông tin/qvel tenxơ (30,) phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (45,) phao32
bước/phần thưởng tenxơ phao32

d4rl_adroit_pen/v1-nhân bản

Tách ra ví dụ
'train' 3,755
  • Cấu trúc tính năng :
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(45, 256), dtype=float32),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(256, 24), dtype=float32),
        'nonlinearity': string,
        'output_distribution': string,
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
thuật toán tenxơ sợi dây
chính sách Tính năngDict
chính sách/fc0 Tính năngDict
chính sách/fc0/thiên vị tenxơ (256,) phao32
chính sách/fc0/trọng lượng tenxơ (45, 256) phao32
chính sách/fc1 Tính năngDict
chính sách/fc1/thiên vị tenxơ (256,) phao32
chính sách/fc1/trọng lượng tenxơ (256, 256) phao32
chính sách/last_fc Tính năngDict
chính sách/last_fc/thiên vị tenxơ (24,) phao32
chính sách/last_fc/trọng lượng tenxơ (256, 24) phao32
chính sách/phi tuyến tính tenxơ sợi dây
chính sách/đầu ra_phân phối tenxơ sợi dây
bước tập dữ liệu
bước/hành động tenxơ (24,) phao32
bước/giảm giá tenxơ phao32
các bước/thông tin Tính năngDict
các bước/thông tin/desired_orien tenxơ (4,) phao32
các bước/thông tin/qpos tenxơ (30,) phao32
các bước/thông tin/qvel tenxơ (30,) phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (45,) phao32
bước/phần thưởng tenxơ phao32

d4rl_adroit_pen/v1-chuyên gia

  • Kích thước tải xuống : 249.90 MiB

  • Kích thước tập dữ liệu : 548.47 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 5.000
  • Cấu trúc tính năng :
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=float32),
            'weight': Tensor(shape=(64, 45), dtype=float32),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=float32),
            'weight': Tensor(shape=(64, 64), dtype=float32),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(24, 64), dtype=float32),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(24, 64), dtype=float32),
        'nonlinearity': string,
        'output_distribution': string,
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(24,), dtype=float32),
            'action_mean': Tensor(shape=(24,), dtype=float32),
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
thuật toán tenxơ sợi dây
chính sách Tính năngDict
chính sách/fc0 Tính năngDict
chính sách/fc0/thiên vị tenxơ (64,) phao32
chính sách/fc0/trọng lượng tenxơ (64, 45) phao32
chính sách/fc1 Tính năngDict
chính sách/fc1/thiên vị tenxơ (64,) phao32
chính sách/fc1/trọng lượng tenxơ (64, 64) phao32
chính sách/last_fc Tính năngDict
chính sách/last_fc/thiên vị tenxơ (24,) phao32
chính sách/last_fc/trọng lượng tenxơ (24, 64) phao32
chính sách/last_fc_log_std Tính năngDict
chính sách/last_fc_log_std/thiên vị tenxơ (24,) phao32
chính sách/last_fc_log_std/trọng số tenxơ (24, 64) phao32
chính sách/phi tuyến tính tenxơ sợi dây
chính sách/đầu ra_phân phối tenxơ sợi dây
bước tập dữ liệu
bước/hành động tenxơ (24,) phao32
bước/giảm giá tenxơ phao32
các bước/thông tin Tính năngDict
các bước/thông tin/action_log_std tenxơ (24,) phao32
các bước/thông tin/action_mean tenxơ (24,) phao32
các bước/thông tin/desired_orien tenxơ (4,) phao32
các bước/thông tin/qpos tenxơ (30,) phao32
các bước/thông tin/qvel tenxơ (30,) phao32
các bước/is_first tenxơ bool
bước/is_last tenxơ bool
bước/is_terminal tenxơ bool
các bước/quan sát tenxơ (45,) phao32
bước/phần thưởng tenxơ phao32