মনোযোগ: TensorFlow Lite এখন Google AI Edge-এর অংশ। সর্বশেষ ডকুমেন্টেশন এখন ai.google.dev/edge/lite- এ রয়েছে। আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

শক্তিবৃদ্ধি শিক্ষা

একটি এজেন্টের বিরুদ্ধে একটি বোর্ড গেম খেলুন, যাকে শক্তিবৃদ্ধি শিক্ষা ব্যবহার করে প্রশিক্ষিত করা হয় এবং টেনসরফ্লো লাইটের সাথে স্থাপন করা হয়।

এবার শুরু করা যাক

আপনি যদি TensorFlow Lite-এ নতুন হয়ে থাকেন এবং Android এর সাথে কাজ করেন, তাহলে আমরা আপনাকে শুরু করতে সাহায্য করতে পারে এমন নিম্নলিখিত উদাহরণের অ্যাপ্লিকেশনটি অন্বেষণ করার পরামর্শ দিই।

অ্যান্ড্রয়েড উদাহরণ

আপনি যদি অ্যান্ড্রয়েড ছাড়া অন্য কোনো প্ল্যাটফর্ম ব্যবহার করেন, অথবা আপনি ইতিমধ্যেই TensorFlow Lite API- এর সাথে পরিচিত হন, তাহলে আপনি আমাদের প্রশিক্ষিত মডেল ডাউনলোড করতে পারেন।

মডেল ডাউনলোড করুন

কিভাবে এটা কাজ করে

মডেলটি 'প্লেন স্ট্রাইক' নামে একটি ছোট বোর্ড গেম খেলতে গেম এজেন্টের জন্য তৈরি করা হয়েছে। এই গেমটি এবং এর নিয়মগুলির একটি দ্রুত পরিচিতির জন্য, অনুগ্রহ করে এই README দেখুন।

অ্যাপের UI-এর নীচে, আমরা একটি এজেন্ট তৈরি করেছি যেটি মানব খেলোয়াড়ের বিরুদ্ধে খেলে৷ এজেন্ট হল একটি 3-স্তর MLP যা বোর্ডের অবস্থাকে ইনপুট হিসাবে নেয় এবং সম্ভাব্য 64টি বোর্ড কক্ষের প্রতিটির জন্য পূর্বাভাসিত স্কোর আউটপুট করে। মডেলটিকে পলিসি গ্রেডিয়েন্ট (রিইনফোর্স) ব্যবহার করে প্রশিক্ষিত করা হয় এবং আপনি এখানে প্রশিক্ষণ কোডটি খুঁজে পেতে পারেন। এজেন্টকে প্রশিক্ষণ দেওয়ার পর, আমরা মডেলটিকে TFLite-এ রূপান্তর করি এবং এটিকে Android অ্যাপে স্থাপন করি।

অ্যান্ড্রয়েড অ্যাপে প্রকৃত গেম খেলার সময়, যখন এজেন্টের পদক্ষেপ নেওয়ার পালা, তখন এজেন্ট মানব খেলোয়াড়ের বোর্ডের অবস্থা (নীচের বোর্ড) দেখেন, যাতে পূর্ববর্তী সফল এবং অসফল স্ট্রাইক (হিট এবং মিস) সম্পর্কে তথ্য থাকে। , এবং পরবর্তীতে কোথায় আঘাত করতে হবে তা ভবিষ্যদ্বাণী করতে প্রশিক্ষিত মডেল ব্যবহার করে, যাতে এটি মানব খেলোয়াড়ের আগে খেলাটি শেষ করতে পারে।

কর্মক্ষমতা বেঞ্চমার্ক

পারফরম্যান্স বেঞ্চমার্ক নম্বর এখানে বর্ণিত টুল দিয়ে তৈরি করা হয়।

ণশড	মডেলের আকার	যন্ত্র	সিপিইউ
পলিসি গ্রেডিয়েন্ট	84 Kb	Pixel 3 (Android 10)	0.01ms*
পলিসি গ্রেডিয়েন্ট	84 Kb	Pixel 4 (Android 10)	0.01ms*

* 1টি থ্রেড ব্যবহার করা হয়েছে।

ইনপুট

মডেলটি বোর্ড স্টেট হিসেবে (1, 8, 8) একটি 3-D float32 টেনসর গ্রহণ করে।

আউটপুট

মডেলটি 64টি সম্ভাব্য স্ট্রাইক অবস্থানের প্রতিটির জন্য পূর্বাভাসিত স্কোর হিসাবে আকৃতির একটি 2-D float32 টেনসর (1,64) প্রদান করে।

আপনার নিজের মডেল প্রশিক্ষণ

আপনি প্রশিক্ষণ কোডে BOARD_SIZE প্যারামিটার পরিবর্তন করে একটি বড়/ছোট বোর্ডের জন্য আপনার নিজের মডেলকে প্রশিক্ষণ দিতে পারেন।