d4rl_adroit_pen

  • Sự miêu tả :

D4RL là một chuẩn mực nguồn mở dành cho việc học tăng cường ngoại tuyến. Nó cung cấp các môi trường và bộ dữ liệu được tiêu chuẩn hóa cho các thuật toán đào tạo và đo điểm chuẩn.

Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và các tập.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_pen/v0-human (cấu hình mặc định)

Tách ra Ví dụ
'train' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
bước Tập dữ liệu
bước/hành động Tenxơ (24,) phao32
bước/giảm giá Tenxơ phao32
các bước/thông tin Tính năngDict
bước/thông tin/qpos Tenxơ (30,) phao32
bước/thông tin/qvel Tenxơ (30,) phao32
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tenxơ (45,) phao32
bước/phần thưởng Tenxơ phao32

d4rl_adroit_pen/v0-nhân bản

Tách ra Ví dụ
'train' 5.023
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float64),
        'reward': float64,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
bước Tập dữ liệu
bước/hành động Tenxơ (24,) phao32
bước/giảm giá Tenxơ phao64
các bước/thông tin Tính năngDict
bước/thông tin/qpos Tenxơ (30,) phao64
bước/thông tin/qvel Tenxơ (30,) phao64
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tenxơ (45,) phao64
bước/phần thưởng Tenxơ phao64

d4rl_adroit_pen/v0-expert

Tách ra Ví dụ
'train' 5.000
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(24,), dtype=float32),
            'action_mean': Tensor(shape=(24,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
bước Tập dữ liệu
bước/hành động Tenxơ (24,) phao32
bước/giảm giá Tenxơ phao32
các bước/thông tin Tính năngDict
bước/thông tin/hành động_logstd Tenxơ (24,) phao32
bước/thông tin/hành động_mean Tenxơ (24,) phao32
bước/thông tin/qpos Tenxơ (30,) phao32
bước/thông tin/qvel Tenxơ (30,) phao32
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tenxơ (45,) phao32
bước/phần thưởng Tenxơ phao32

d4rl_adroit_pen/v1-human

Tách ra Ví dụ
'train' 25
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
bước Tập dữ liệu
bước/hành động Tenxơ (24,) phao32
bước/giảm giá Tenxơ phao32
các bước/thông tin Tính năngDict
bước/thông tin/desired_orien Tenxơ (4,) phao32
bước/thông tin/qpos Tenxơ (30,) phao32
bước/thông tin/qvel Tenxơ (30,) phao32
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tenxơ (45,) phao32
bước/phần thưởng Tenxơ phao32

d4rl_adroit_pen/v1-nhân bản

Tách ra Ví dụ
'train' 3.755
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(45, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(256, 24), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
thuật toán Tenxơ sợi dây
chính sách Tính năngDict
chính sách/fc0 Tính năngDict
chính sách/fc0/thiên vị Tenxơ (256,) phao32
chính sách/fc0/trọng lượng Tenxơ (45, 256) phao32
chính sách/fc1 Tính năngDict
chính sách/fc1/thiên vị Tenxơ (256,) phao32
chính sách/fc1/trọng lượng Tenxơ (256, 256) phao32
chính sách/last_fc Tính năngDict
chính sách/last_fc/thiên vị Tenxơ (24,) phao32
chính sách/last_fc/trọng lượng Tenxơ (256, 24) phao32
chính sách/phi tuyến tính Tenxơ sợi dây
chính sách/output_distribution Tenxơ sợi dây
bước Tập dữ liệu
bước/hành động Tenxơ (24,) phao32
bước/giảm giá Tenxơ phao32
các bước/thông tin Tính năngDict
bước/thông tin/desired_orien Tenxơ (4,) phao32
bước/thông tin/qpos Tenxơ (30,) phao32
bước/thông tin/qvel Tenxơ (30,) phao32
bước/là_đầu tiên Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tenxơ (45,) phao32
bước/phần thưởng Tenxơ phao32

d4rl_adroit_pen/v1-expert

  • Kích thước tải xuống : 249.90 MiB

  • Kích thước tập dữ liệu : 548.47 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'train' 5.000
  • Cấu trúc tính năng :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=float32),
            'weight': Tensor(shape=(64, 45), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=float32),
            'weight': Tensor(shape=(64, 64), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(24, 64), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(24, 64), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(24,), dtype=float32),
            'action_mean': Tensor(shape=(24,), dtype=float32),
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
thuật toán Tenxơ sợi dây
chính sách Tính năngDict
chính sách/fc0 Tính năngDict
chính sách/fc0/thiên vị Tenxơ (64,) phao32
chính sách/fc0/trọng lượng Tenxơ (64, 45) phao32
chính sách/fc1 Tính năngDict
chính sách/fc1/thiên vị Tenxơ (64,) phao32
chính sách/fc1/trọng lượng Tenxơ (64, 64) phao32
chính sách/last_fc Tính năngDict
chính sách/last_fc/thiên vị Tenxơ (24,) phao32
chính sách/last_fc/trọng lượng Tenxơ (24, 64) phao32
chính sách/last_fc_log_std Tính năngDict
chính sách/last_fc_log_std/thiên vị Tenxơ (24,) phao32
chính sách/last_fc_log_std/trọng lượng Tenxơ (24, 64) phao32
chính sách/phi tuyến tính Tenxơ sợi dây
chính sách/output_distribution Tenxơ sợi dây
bước Tập dữ liệu
bước/hành động Tenxơ (24,) phao32
bước/giảm giá Tenxơ phao32
các bước/thông tin Tính năngDict
bước/thông tin/action_log_std Tenxơ (24,) phao32
bước/thông tin/hành động_mean Tenxơ (24,) phao32
bước/thông tin/desired_orien Tenxơ (4,) phao32
bước/thông tin/qpos Tenxơ (30,) phao32
bước/thông tin/qvel Tenxơ (30,) phao32
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tenxơ (45,) phao32
bước/phần thưởng Tenxơ phao32