rlu_dmlab_seekavoid_arena01

Mô tả :

RL Unplugged là bộ tiêu chuẩn cho việc học tăng cường ngoại tuyến. RL Unplugged được thiết kế dựa trên những cân nhắc sau: để tạo điều kiện thuận lợi cho việc sử dụng, chúng tôi cung cấp các bộ dữ liệu với một API thống nhất giúp người thực hành dễ dàng làm việc với tất cả dữ liệu trong bộ sau khi một quy trình chung đã được thiết lập.

Các bộ dữ liệu tuân theo định dạng RLDS để thể hiện các bước và giai đoạn.

Bộ dữ liệu DeepMind Lab có một số cấp độ từ bộ Deepmind Lab đầy thách thức, có thể quan sát được một phần . Bộ dữ liệu DeepMind Lab được thu thập bằng cách đào tạo các tác nhân R2D2 phân tán của Kapturowski và cộng sự, 2018 từ đầu đối với các tác vụ riêng lẻ. Chúng tôi đã ghi lại trải nghiệm của tất cả các diễn viên trong toàn bộ quá trình đào tạo một vài lần cho mọi nhiệm vụ. Chi tiết về quy trình tạo tập dữ liệu được mô tả trong Gulcehre et al., 2021 .

Chúng tôi phát hành bộ dữ liệu cho năm cấp độ khác nhau của DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Chúng tôi cũng phát hành bộ dữ liệu ảnh chụp nhanh cho cấp seekavoid_arena_01 mà chúng tôi đã tạo bộ dữ liệu từ ảnh chụp nhanh R2D2 được đào tạo với các cấp epsilon khác nhau cho thuật toán tham lam epsilon khi đánh giá tác nhân trong môi trường.

Bộ dữ liệu DeepMind Lab có quy mô khá lớn. Chúng tôi khuyên bạn nên dùng thử nếu bạn quan tâm đến các mô hình RL ngoại tuyến quy mô lớn có bộ nhớ.

Trang chủ : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Mã nguồn : tfds.rl_unplugged.rlu_dmlab_seekavoid_arena01.RluDmlabSeekavoidArena01
Phiên bản :
- 1.0.0 : Bản phát hành đầu tiên.
- 1.1.0 : Đã thêm is_last.
- 1.2.0 (mặc định): BGR -> Sửa lỗi RGB cho các quan sát pixel.
Kích thước tải xuống : Unknown size
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
tập_id	tenxơ		int64
tập_return	tenxơ		phao32
bước	tập dữ liệu
bước/hành động	tenxơ		int64
bước/giảm giá	tenxơ		phao32
các bước/is_first	tenxơ		bool
bước/is_last	tenxơ		bool
bước/is_terminal	tenxơ		bool
các bước/quan sát	Tính năngDict
các bước/quan sát/last_action	tenxơ		int64
các bước/quan sát/last_reward	tenxơ		phao32
bước/quan sát/pixel	Hình ảnh	(72, 96, 3)	uint8
bước/phần thưởng	tenxơ		phao32

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_seekavoid_arena01/training_0 (cấu hình mặc định)

Kích thước tập dữ liệu : 356.86 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	134,707

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/training_1

Kích thước tập dữ liệu : 337.09 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	128,472

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/training_2

Kích thước tập dữ liệu : 355.62 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	133,545

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.0

Kích thước tập dữ liệu : 89.16 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	33.340

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.0

Kích thước tập dữ liệu : 89.03 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	33.340

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.01

Kích thước tập dữ liệu : 89.12 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	33.340

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.01

Kích thước tập dữ liệu : 89.02 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	33.340

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.25

Kích thước tập dữ liệu : 88.57 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	33.340

Ví dụ ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.25

Kích thước tập dữ liệu : 88.51 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	33.340

Ví dụ ( tfds.as_dataframe ):