- คำอธิบาย :
RL Unplugged เป็นชุดมาตรฐานสำหรับการเรียนรู้เสริมกำลังแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงสิ่งต่อไปนี้: เพื่ออำนวยความสะดวกในการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวม ซึ่งช่วยให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดได้ง่ายเมื่อมีการสร้างไปป์ไลน์ทั่วไป
ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ
ชุดข้อมูล DeepMind Lab มีหลายระดับตั้งแต่ ชุดโปรแกรม Deepmind Lab ที่ท้าทายและสังเกตได้บางส่วน ชุดข้อมูล DeepMind Lab รวบรวมโดยการฝึกอบรมที่แจกจ่าย R2D2 โดย Kapturowski et al. ตัวแทนปี 2018 ตั้งแต่เริ่มต้นในแต่ละงาน เราบันทึกประสบการณ์ของนักแสดงทุกคนระหว่างการฝึกทั้งหมด 2-3 ครั้งสำหรับทุกๆ ภารกิจ รายละเอียดของกระบวนการสร้างชุดข้อมูลอธิบายไว้ใน Gulcehre et al., 2021
เราเผยแพร่ชุดข้อมูลสำหรับ DeepMind Lab ห้าระดับที่แตกต่างกัน: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
นอกจากนี้ เรายังเผยแพร่ชุดข้อมูลสแน็ปช็อตสำหรับระดับ seekavoid_arena_01
ที่เราสร้างชุดข้อมูลจากสแน็ปช็อต R2D2 ที่ผ่านการฝึกอบรมซึ่งมีเอปไซลอนในระดับต่างๆ สำหรับอัลกอริทึมเอปไซลอนที่ละโมบเมื่อทำการประเมินเอเจนต์ในสภาพแวดล้อม
ชุดข้อมูล DeepMind Lab มีขนาดค่อนข้างใหญ่ เราขอแนะนำให้คุณลองใช้หากคุณสนใจโมเดล RL ออฟไลน์ขนาดใหญ่ที่มีหน่วยความจำ
หน้าแรก : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
รหัสที่มา :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
รุ่น :
-
1.0.0
: การเปิดตัวครั้งแรก -
1.1.0
: เพิ่ม is_last -
1.2.0
(ค่าเริ่มต้น): แก้ไข BGR -> RGB สำหรับการสังเกตพิกเซล
-
ขนาดการดาวน์โหลด :
Unknown size
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตอนที่_id | เทนเซอร์ | int64 | ||
ตอนที่_return | เทนเซอร์ | ลอย32 | ||
ขั้นตอน | ชุดข้อมูล | |||
ขั้นตอน/การดำเนินการ | เทนเซอร์ | int64 | ||
ขั้นตอน/ส่วนลด | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/is_first | เทนเซอร์ | บูล | ||
ขั้นตอน/is_last | เทนเซอร์ | บูล | ||
ขั้นตอน/is_terminal | เทนเซอร์ | บูล | ||
ขั้นตอน/ข้อสังเกต | คุณสมบัติDict | |||
ขั้นตอน/การสังเกต/last_action | เทนเซอร์ | int64 | ||
ขั้นตอน/การสังเกต/last_reward | เทนเซอร์ | ลอย32 | ||
ขั้นตอน/การสังเกต/พิกเซล | ภาพ | (72, 96, 3) | uint8 | |
ขั้นตอน / รางวัล | เทนเซอร์ | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_many/training_0 (ค่าเริ่มต้น)
ขนาดชุดข้อมูล :
1.51 TiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 111,370 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_1
ขนาดชุดข้อมูล :
1.44 TiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 111,367 |
- ตัวอย่าง ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_2
ขนาดชุดข้อมูล :
1.48 TiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 111,367 |
- ตัวอย่าง ( tfds.as_dataframe ):