rlu_dmlab_explore_object_rewards_many

  • विवरण :

आरएल अनप्लग्ड ऑफ़लाइन रीइन्फोर्समेंट लर्निंग के लिए बेंचमार्क का सूट है। आरएल अनप्लग्ड को निम्नलिखित विचारों के आसपास डिज़ाइन किया गया है: उपयोग में आसानी के लिए, हम एक एकीकृत एपीआई के साथ डेटासेट प्रदान करते हैं जो सामान्य पाइपलाइन स्थापित होने के बाद व्यवसायी के लिए सूट में सभी डेटा के साथ काम करना आसान बनाता है।

डेटासेट चरण और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।

डीपमाइंड लैब डेटासेट में चुनौतीपूर्ण, आंशिक रूप से देखने योग्य डीपमाइंड लैब सूट से कई स्तर हैं। डीपमाइंड लैब डेटासेट को व्यक्तिगत कार्यों पर खरोंच से Kapturowski et al।, 2018 एजेंटों द्वारा वितरित R2D2 प्रशिक्षण द्वारा एकत्र किया जाता है। हमने संपूर्ण प्रशिक्षण के दौरान प्रत्येक कार्य के लिए कई बार सभी अभिनेताओं के अनुभव को रिकॉर्ड किया। डेटासेट बनाने की प्रक्रिया का विवरण गुलशेरे एट अल., 2021 में वर्णित है।

हम पांच अलग-अलग डीपमाइंड लैब स्तरों के लिए डेटासेट जारी करते हैं: seekavoid_arena_01 , rooms_watermaze rooms_select_nonmatching_object explore_rewards_few explore_rewards_many हम seekavoid_arena_01 स्तर के लिए स्नैपशॉट डेटासेट भी जारी करते हैं जिसे हमने पर्यावरण में एजेंट का मूल्यांकन करते समय एप्सिलॉन-लालची एल्गोरिथ्म के लिए एप्सिलॉन के विभिन्न स्तरों के साथ एक प्रशिक्षित R2D2 स्नैपशॉट से डेटासेट उत्पन्न किया।

डीपमाइंड लैब डेटासेट काफी बड़े पैमाने पर है। यदि आप स्मृति के साथ बड़े पैमाने पर ऑफ़लाइन आरएल मॉडल में रुचि रखते हैं, तो हम आपको इसे आज़माने की सलाह देते हैं।

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
प्रकरण_वापसी टेन्सर फ्लोट32
कदम डेटासेट
कदम / कार्रवाई टेन्सर int64
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
चरण/अवलोकन/last_action टेन्सर int64
चरण/अवलोकन/last_reward टेन्सर फ्लोट32
चरण/अवलोकन/पिक्सेल छवि (72, 96, 3) uint8
कदम / इनाम टेन्सर फ्लोट32
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_many/training_0 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 1.51 TiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 111,370

rlu_dmlab_explore_object_rewards_many/training_1

  • डेटासेट का आकार : 1.44 TiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 111,367

rlu_dmlab_explore_object_rewards_many/training_2

  • डेटासेट का आकार : 1.48 TiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 111,367