rlu_dmlab_rooms_watermaze

  • คำอธิบาย :

RL Unplugged เป็นชุดของการวัดประสิทธิภาพสำหรับการเรียนรู้การเสริมแรงแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงข้อควรพิจารณาต่อไปนี้: เพื่อให้ง่ายต่อการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวมศูนย์ ซึ่งทำให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดโปรแกรมได้ง่ายเมื่อสร้างไปป์ไลน์ทั่วไปแล้ว

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอน

ชุดข้อมูล DeepMind Lab มีหลายระดับจาก ชุด Deepmind Lab ที่ท้าทายและมองเห็นได้เพียงบางส่วน ชุดข้อมูล DeepMind Lab ถูกรวบรวมโดยการฝึกอบรมที่แจกจ่าย R2D2 โดย Kapturowski et al., 2018 ตัวแทนจากศูนย์ในงานส่วนบุคคล เราบันทึกประสบการณ์ของนักแสดงทุกคนระหว่างการฝึกสองสามครั้งสำหรับทุกงาน รายละเอียดของกระบวนการสร้างชุดข้อมูลได้อธิบายไว้ใน Gulcehre et al., 2021

เราเผยแพร่ชุดข้อมูลสำหรับระดับ DeepMind Lab ที่แตกต่างกันห้าระดับ: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object นอกจากนี้เรายังปล่อยชุดข้อมูลสแน็ปช็อตสำหรับระดับ seekavoid_arena_01 ที่เราสร้างชุดข้อมูลจากสแน็ปช็อต R2D2 ที่ผ่านการฝึกอบรมพร้อมเอปซิลอนระดับต่างๆ สำหรับอัลกอริธึม epsilon-greedy เมื่อประเมินเอเจนต์ในสภาพแวดล้อม

ชุดข้อมูล DeepMind Lab มีขนาดค่อนข้างใหญ่ เราขอแนะนำให้คุณลองใช้หากคุณสนใจโมเดล RL ออฟไลน์ขนาดใหญ่ที่มีหน่วยความจำ

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dtype คำอธิบาย
คุณสมบัติDict
ตอน_id เทนเซอร์ tf.int64
ตอน_return เทนเซอร์ tf.float32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การกระทำ เทนเซอร์ tf.int64
ขั้นตอน/ส่วนลด เทนเซอร์ tf.float32
ขั้นตอน/is_first เทนเซอร์ tf.bool
ขั้นตอน/is_last เทนเซอร์ tf.bool
ขั้นตอน/is_terminal เทนเซอร์ tf.bool
ขั้นตอน/การสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/last_action เทนเซอร์ tf.int64
ขั้นตอน/การสังเกต/last_reward เทนเซอร์ tf.float32
ขั้นตอน/การสังเกต/พิกเซล ภาพ (72, 96, 3) tf.uint8
ขั้นตอน/รางวัล เทนเซอร์ tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze/training_0 (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 894.50 GiB

  • แยก :

แยก ตัวอย่าง
'train' 67,876

rlu_dmlab_rooms_watermaze/training_1

  • ขนาดชุดข้อมูล : 898.74 GiB

  • แยก :

แยก ตัวอย่าง
'train' 66,922

rlu_dmlab_rooms_watermaze/training_2

  • ขนาดชุดข้อมูล : 825.49 GiB

  • แยก :

แยก ตัวอย่าง
'train' 67,081