rlu_dmlab_rooms_watermaze

  • विवरण :

आरएल अनप्लग्ड ऑफ़लाइन सुदृढीकरण सीखने के लिए बेंचमार्क का सूट है। आरएल अनप्लग्ड को निम्नलिखित विचारों के आसपास डिज़ाइन किया गया है: उपयोग में आसानी की सुविधा के लिए, हम एक एकीकृत एपीआई के साथ डेटासेट प्रदान करते हैं जो एक सामान्य पाइपलाइन स्थापित होने के बाद व्यवसायी के लिए सूट में सभी डेटा के साथ काम करना आसान बनाता है।

डेटासेट चरणों और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।

डीपमाइंड लैब डेटासेट में चुनौतीपूर्ण, आंशिक रूप से देखने योग्य डीपमाइंड लैब सूट से कई स्तर हैं। डीपमाइंड लैब डेटासेट को अलग-अलग कार्यों पर खरोंच से Kapturowski et al।, 2018 एजेंटों द्वारा वितरित R2D2 प्रशिक्षण द्वारा एकत्र किया जाता है। हमने पूरे प्रशिक्षण के दौरान सभी अभिनेताओं के अनुभव को हर कार्य के लिए कई बार रिकॉर्ड किया। डेटासेट जनरेशन प्रक्रिया का विवरण गुलसेरे एट अल।, 2021 में वर्णित है।

हम पांच अलग-अलग डीपमाइंड लैब स्तरों के लिए डेटासेट जारी करते हैं: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object । हम seekavoid_arena_01 स्तर के लिए स्नैपशॉट डेटासेट भी जारी करते हैं, जिसे हमने पर्यावरण में एजेंट का मूल्यांकन करते समय एप्सिलॉन-लालची एल्गोरिथ्म के लिए एप्सिलॉन के विभिन्न स्तरों के साथ एक प्रशिक्षित R2D2 स्नैपशॉट से डेटासेट तैयार किया था।

डीपमाइंड लैब डेटासेट काफी बड़े पैमाने पर है। यदि आप मेमोरी के साथ बड़े पैमाने पर ऑफ़लाइन RL मॉडल में रुचि रखते हैं, तो हम आपको इसे आज़माने की सलाह देते हैं।

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएंडिक्ट
एपिसोड_आईडी टेन्सर tf.int64
एपिसोड_रिटर्न टेन्सर tf.float32
कदम डेटासेट
कदम / क्रिया टेन्सर tf.int64
कदम/छूट टेन्सर tf.float32
चरण/is_first टेन्सर tf.बूल
चरण/is_last टेन्सर tf.बूल
चरण/is_terminal टेन्सर tf.बूल
कदम/अवलोकन विशेषताएंडिक्ट
चरण/अवलोकन/last_action टेन्सर tf.int64
चरण/अवलोकन/last_reward टेन्सर tf.float32
चरण/अवलोकन/पिक्सेल छवि (72, 96, 3) tf.uint8
कदम/इनाम टेन्सर tf.float32
  • पर्यवेक्षित कुंजी ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze/training_0 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 894.50 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 67,876

rlu_dmlab_rooms_watermaze/training_1

  • डेटासेट का आकार : 898.74 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 66,922

rlu_dmlab_rooms_watermaze/training_2

  • डेटासेट का आकार : 825.49 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 67,081