rlu_dmlab_rooms_select_nonmatching_object

  • Mô tả :

RL Unplugged là bộ tiêu chuẩn cho việc học củng cố ngoại tuyến. RL Unplugged được thiết kế dựa trên các yếu tố sau: để tạo điều kiện dễ sử dụng, chúng tôi cung cấp bộ dữ liệu với một API thống nhất giúp người hành nghề dễ dàng làm việc với tất cả dữ liệu trong bộ sau khi quy trình chung đã được thiết lập.

Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.

Bộ dữ liệu DeepMind Lab có một số cấp độ từ bộ Deepmind Lab thử thách, có thể quan sát được một phần. Bộ dữ liệu DeepMind Lab được thu thập bằng cách đào tạo các nhân viên R2D2 được phân phối bởi Kapturowski và cộng sự, 2018 từ đầu về các nhiệm vụ riêng lẻ. Chúng tôi đã ghi lại kinh nghiệm của tất cả các diễn viên trong toàn bộ quá trình đào tạo một vài lần cho mọi nhiệm vụ. Chi tiết của quá trình tạo tập dữ liệu được mô tả trong Gulcehre và cộng sự, 2021 .

Chúng tôi phát hành bộ dữ liệu cho năm cấp độ DeepMind Lab khác nhau: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Chúng tôi cũng phát hành bộ dữ liệu ảnh chụp nhanh cho cấp seekavoid_arena_01 mà chúng tôi đã tạo bộ dữ liệu từ ảnh chụp nhanh R2D2 được đào tạo với các cấp độ epsilon khác nhau cho thuật toán epsilon-tham lam khi đánh giá tác nhân trong môi trường.

Bộ dữ liệu DeepMind Lab có quy mô khá lớn. Chúng tôi khuyên bạn nên dùng thử nếu bạn quan tâm đến các mô hình RL ngoại tuyến quy mô lớn có bộ nhớ.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Episode_id Tensor tf.int64
Episode_return Tensor tf.float32
các bước Dataset
các bước / hành động Tensor tf.int64
bước / chiết khấu Tensor tf.float32
bước / is_first Tensor tf.bool
bước / is_last Tensor tf.bool
step / is_terminal Tensor tf.bool
các bước / quan sát Các tính năng
bước / quan sát / last_action Tensor tf.int64
bước / quan sát / last_reward Tensor tf.float32
bước / quan sát / pixel Hình ảnh (72, 96, 3) tf.uint8
bước / phần thưởng Tensor tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object / training_0 (cấu hình mặc định)

  • Kích thước tập dữ liệu : 1.11 TiB

  • Tách :

Tách ra Các ví dụ
'train' 667.349

rlu_dmlab_rooms_select_nonmatching_object / training_1

  • Kích thước tập dữ liệu : 1.08 TiB

  • Tách :

Tách ra Các ví dụ
'train' 666,923

rlu_dmlab_rooms_select_nonmatching_object / training_2

  • Kích thước tập dữ liệu : 1.09 TiB

  • Tách :

Tách ra Các ví dụ
'train' 666,927