बहु-सशस्त्र डाकुओं का परिचय

परिचय

मल्टी-आर्म्ड बैंडिट (एमएबी) एक मशीन लर्निंग फ्रेमवर्क है जिसमें एक एजेंट को लंबी अवधि में अपने संचयी इनाम को अधिकतम करने के लिए क्रियाओं (हथियारों) का चयन करना होता है। प्रत्येक दौर में, एजेंट को वर्तमान स्थिति (संदर्भ) के बारे में कुछ जानकारी प्राप्त होती है, फिर वह इस जानकारी और पिछले दौर में एकत्रित अनुभव के आधार पर एक कार्रवाई चुनता है। प्रत्येक दौर के अंत में, एजेंट को चुनी गई कार्रवाई से जुड़ा इनाम मिलता है।

शायद शुद्ध उदाहरण समस्या यह है कि एमएबी के लिए इसका नाम उधार है: कल्पना कीजिए कि हम का सामना कर रहे k स्लॉट मशीनों (वन-आर्म्ड बैंडिट), और हम आंकड़ा करने की जरूरत है बाहर जो एक सबसे अच्छा भुगतान किया है, जबकि बहुत ज्यादा पैसा खोने नहीं।

बहु-सशस्त्र डाकू

प्रत्येक मशीन को एक बार आज़माना और फिर सबसे अधिक भुगतान करने वाली मशीन को चुनना एक अच्छी रणनीति नहीं होगी: एजेंट ऐसी मशीन चुनने में पड़ सकता है जिसका शुरुआत में एक भाग्यशाली परिणाम था लेकिन सामान्य रूप से उप-इष्टतम है। इसके बजाय, एजेंट को बार-बार उन मशीनों को चुनने के लिए वापस आना चाहिए जो इतनी अच्छी नहीं लगती हैं, ताकि उनके बारे में अधिक जानकारी एकत्र की जा सके। मल्टी-आर्म्ड बैंडिट्स में यह मुख्य चुनौती है: एजेंट को पूर्व ज्ञान के दोहन और खोज के बीच सही मिश्रण खोजना होगा ताकि इष्टतम कार्यों की अनदेखी से बचा जा सके।

एमएबी के अधिक व्यावहारिक उदाहरणों में हर बार जब शिक्षार्थी कोई निर्णय लेता है, तो एक पक्ष जानकारी शामिल होती है। हम इस पक्ष की जानकारी को "संदर्भ" या "अवलोकन" कहते हैं।

बहु-सशस्त्र डाकुओं और सुदृढीकरण सीखना

TF-Agents लाइब्रेरी में MAB सुइट क्यों है? RL और MAB के बीच क्या संबंध है? बहु-सशस्त्र डाकुओं को सुदृढीकरण सीखने का एक विशेष मामला माना जा सकता है। के शब्दों में आर एल का परिचय :

हर बार कदम पर, एजेंट अपनी नीति के आधार पर पर्यावरण पर कोई ऐसा कार्य करता π(at|st), जहां st पर्यावरण से वर्तमान अवलोकन है, और एक इनाम प्राप्त rt+1 और अगले अवलोकन st+1 वातावरण से . लक्ष्य नीति में सुधार करना है ताकि पुरस्कारों के योग (वापसी) को अधिकतम किया जा सके।

सामान्य आर एल मामले में, अगले अवलोकन st+1 पहले वाली स्थिति पर निर्भर करता है st और कार्रवाई at नीति द्वारा उठाए गए। यह अंतिम भाग है जो एमएबी को आरएल से अलग करता है: एमएबी में, अगला राज्य, जो अवलोकन है, एजेंट द्वारा चुनी गई कार्रवाई पर निर्भर नहीं करता है।

यह समानता हमें TF-Agents में मौजूद सभी अवधारणाओं का पुन: उपयोग करने की अनुमति देती है।

  • एक ऐसा वातावरण टिप्पणियों, और पुरस्कार के साथ कार्रवाई का जवाब आउटपुट।
  • एक नीति एक अवलोकन के आधार पर एक कार्रवाई आउटपुट, और
  • एक एजेंट ने बार-बार नीति पिछले प्रेक्षण-एक्शन इनाम tuples के आधार पर अद्यतन करता है।

मशरूम पर्यावरण

उदाहरण के लिए, हम "मशरूम पर्यावरण" नामक एक खिलौना उदाहरण का उपयोग करते हैं। मशरूम डाटासेट ( Schlimmer, 1981 ) खाद्य और जहरीला मशरूम की लेबल उदाहरण के होते हैं। सुविधाओं में आकार, रंग, मशरूम के विभिन्न भागों के आकार, साथ ही गंध और बहुत कुछ शामिल हैं।

मशरूम

मशरूम डेटासेट, सभी पर्यवेक्षित शिक्षण डेटासेट की तरह, एक प्रासंगिक एमएबी समस्या में बदल सकता है। हम विधि भी द्वारा प्रयोग किया जाता का उपयोग Riquelme एट अल। (2018) । इस रूपांतरण में, एजेंट मशरूम की विशेषताओं को प्राप्त करता है, इसे खाने या न खाने का फैसला करता है। खाद्य मशरूम खाने से +5 का इनाम मिलता है, जबकि जहरीला मशरूम खाने से समान संभावना के साथ +5 या -35 मिलेगा। मशरूम न खाने का परिणाम 0 इनाम में मिलता है, स्वतंत्र रूप से मशरूम के प्रकार से। निम्न तालिका पुरस्कार असाइनमेंट का सारांश प्रस्तुत करती है:

           | edible | poisonous
-----------|--------|----------
eating it  
|     +5 | -35 / +5
leaving it
|      0 |        0

लिनयूसीबी एजेंट

एक प्रासंगिक दस्यु वातावरण में अच्छा प्रदर्शन करने के लिए अवलोकन को देखते हुए प्रत्येक क्रिया के इनाम समारोह पर एक अच्छे अनुमान की आवश्यकता होती है। एक संभावना रैखिक कार्यों के साथ इनाम समारोह का अनुमान लगाना है। है, हर कार्रवाई के लिए कि i, हम पैरामीटर खोजने की कोशिश कर रहे हैं θiRd जो अनुमान के लिए

rt,ivt,θi

यथासंभव वास्तविकता के करीब हैं। यहाँ vtRd समय कदम पर प्राप्त संदर्भ है t। तो फिर, अगर एजेंट अपने अनुमान में बहुत विश्वास है, यह चयन कर सकते हैं argmax1,...,Kvt,θk उच्चतम उम्मीद पुरस्कार प्राप्त करें।

जैसा कि ऊपर बताया गया है, केवल सर्वोत्तम अनुमानित इनाम के साथ हाथ चुनने से अच्छी रणनीति नहीं बनती है। वहाँ रैखिक आकलनकर्ता एजेंटों में शोषण और अन्वेषण मिश्रण करने के विभिन्न तरीके हैं, और सबसे प्रसिद्ध में से एक रैखिक ऊपरी सीमा (LinUCB) एल्गोरिथ्म विश्वास है (देखें उदाहरण के लिए ली एट अल। 2010 )। LinUCB के दो मुख्य निर्माण खंड हैं (कुछ विवरण छोड़े गए):

  1. यह रैखिक कम से कम वर्गों के साथ हर हाथ के मापदंडों के लिए अनुमान का कहना है: θ^iXi+ri, जहां Xi और ri खड़ी संदर्भों और दौर के पुरस्कार जहां हाथ कर रहे हैं i चुना गया था, और ()+ छद्म उल्टा होता है .
  2. यह आत्मविश्वास ellipsoids उलटा सहप्रसरण द्वारा परिभाषित का कहना है XiXi ऊपर अनुमान के लिए।

LinUCB का मुख्य विचार "अनिश्चितता की स्थिति में आशावाद" का है। एजेंट उन अनुमानों के विचरण से मेल खाने वाली राशि से अनुमानों को बढ़ाकर अन्वेषण को शामिल करता है। यही कारण है कि वह जगह है जहाँ आत्मविश्वास ellipsoids चित्र में आते हैं: हर हाथ के लिए, आशावादी अनुमान है r^i=maxθEivt,θ, जहां Ei दीर्घवृत्ताभ के आसपास है θ^i। एजेंट चुनता सर्वश्रेष्ठ स्थिति में हाथ argmaxir^i

बेशक उपरोक्त विवरण LinUCB जो करता है उसका एक सहज लेकिन सतही सारांश है। एक कार्यान्वयन हमारे codebase में पाया जा सकता है यहाँ

आगे क्या होगा?

आप हमारी डाकू पुस्तकालय पर एक अधिक विस्तृत ट्यूटोरियल करना चाहते हैं हमारे पर एक नज़र डालें डाकू के लिए ट्यूटोरियल । तो इसके बजाय, आप हमारे पुस्तकालय अभी तलाश शुरू करना चाहते हैं, तो आप इसे पा सकते हैं यहाँ । आप और भी अधिक हमारे अंत से अंत उदाहरण में से कुछ पर प्रशिक्षण, देखो शुरू करने के लिए उत्सुक हैं, तो यहाँ , LinUCB के साथ ऊपर वर्णित मशरूम वातावरण सहित यहाँ