- Mô tả :
RL Unplugged là bộ tiêu chuẩn cho việc học củng cố ngoại tuyến. RL Unplugged được thiết kế dựa trên các yếu tố sau: để tạo điều kiện dễ sử dụng, chúng tôi cung cấp bộ dữ liệu với một API thống nhất giúp người hành nghề dễ dàng làm việc với tất cả dữ liệu trong bộ sau khi quy trình chung đã được thiết lập.
Bộ dữ liệu tuân theo định dạng RLDS để biểu thị các bước và các tập.
Bộ dữ liệu DeepMind Lab có một số cấp độ từ bộ Deepmind Lab thử thách, có thể quan sát được một phần. Bộ dữ liệu DeepMind Lab được thu thập bằng cách đào tạo các nhân viên R2D2 được phân phối bởi Kapturowski và cộng sự, 2018 từ đầu về các nhiệm vụ riêng lẻ. Chúng tôi đã ghi lại kinh nghiệm của tất cả các diễn viên trong toàn bộ quá trình đào tạo một vài lần cho mọi nhiệm vụ. Chi tiết của quá trình tạo tập dữ liệu được mô tả trong Gulcehre và cộng sự, 2021 .
Chúng tôi phát hành bộ dữ liệu cho năm cấp độ DeepMind Lab khác nhau: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Chúng tôi cũng phát hành bộ dữ liệu ảnh chụp nhanh cho cấp seekavoid_arena_01
mà chúng tôi đã tạo bộ dữ liệu từ ảnh chụp nhanh R2D2 được đào tạo với các cấp độ epsilon khác nhau cho thuật toán epsilon-tham lam khi đánh giá tác nhân trong môi trường.
Bộ dữ liệu DeepMind Lab có quy mô khá lớn. Chúng tôi khuyên bạn nên dùng thử nếu bạn quan tâm đến các mô hình RL ngoại tuyến quy mô lớn có bộ nhớ.
Trang chủ : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Mã nguồn :
tfds.rl_unplugged.rlu_dmlab_rooms_select_nonmatching_object.RluDmlabRoomsSelectNonmatchingObject
Các phiên bản :
-
1.0.0
: Bản phát hành ban đầu. -
1.1.0
: Đã thêm is_last. -
1.2.0
(mặc định): Bản sửa lỗi BGR -> RGB cho các quan sát pixel.
-
Kích thước tải xuống :
Unknown size
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
Episode_id | Tensor | tf.int64 | ||
Episode_return | Tensor | tf.float32 | ||
các bước | Dataset | |||
các bước / hành động | Tensor | tf.int64 | ||
bước / chiết khấu | Tensor | tf.float32 | ||
bước / is_first | Tensor | tf.bool | ||
bước / is_last | Tensor | tf.bool | ||
step / is_terminal | Tensor | tf.bool | ||
các bước / quan sát | Các tính năng | |||
bước / quan sát / last_action | Tensor | tf.int64 | ||
bước / quan sát / last_reward | Tensor | tf.float32 | ||
bước / quan sát / pixel | Hình ảnh | (72, 96, 3) | tf.uint8 | |
bước / phần thưởng | Tensor | tf.float32 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_select_nonmatching_object / training_0 (cấu hình mặc định)
Kích thước tập dữ liệu :
1.11 TiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 667.349 |
- Ví dụ ( tfds.as_dataframe ):
rlu_dmlab_rooms_select_nonmatching_object / training_1
Kích thước tập dữ liệu :
1.08 TiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 666,923 |
- Ví dụ ( tfds.as_dataframe ):
rlu_dmlab_rooms_select_nonmatching_object / training_2
Kích thước tập dữ liệu :
1.09 TiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 666,927 |
- Ví dụ ( tfds.as_dataframe ):