রিইনফোর্সমেন্ট লার্নিং (Reinforcement Learning) বেসিকস
একটি কুকুরছানাকে ট্রেইনিং দেওয়া (Training a Dog)
ধরুন, আপনি একটি কুকুরছানাকে বসতে শেখাচ্ছেন। আপনি বললেন "বসো (sit)"। কুকুরছানাটি হয়তো গোল হয়ে ঘুরতে শুরু করল। কিছুই হলো না। এরপর কুকুরটি শুয়ে পড়ল। এতেও কিছু হলো না। কিন্তু যখন কুকুরছানাটি ভুল করে বসে পড়ল, তখনই আপনি তাকে পুরস্কার বা ট্রিট (Treat!) দিলেন। কুকুরছানাটির চোখ আনন্দে উজ্জ্বল হয়ে উঠল। এভাবে বেশ কয়েকবার করার পর সে নিজে থেকেই বুঝতে পারবে: বসতে পারলেই ট্রিট বা পুরস্কার পাওয়া যায়।
এই পুরো ব্যাপারটিই হলো রিইনফোর্সমেন্ট লার্নিং (RL) — বারবার চেষ্টা করা, ভুল করা এবং সেখান থেকে রিওয়ার্ড বা পুরস্কার পাওয়ার মাধ্যমে নিজে নিজে শেখা। কেউ কুকুরছানাটিকে কোনো ম্যানুয়াল বা বই পড়তে দেয়নি। কেউ বসে থাকার ১০ হাজার উদাহরণ বা ছবিও তাকে দেখায়নি। সে কেবল নিজে থেকেই নানা ধরনের কাজ করে দেখেছে এবং তার ফলাফলের ওপর ভিত্তি করেই সে শিখেছে।
রিইনফোর্সমেন্ট লার্নিং (RL) যেভাবে কাজ করে
যেকোনো আরএল (RL) সমস্যার মূলত ৪টি অংশ থাকে:
- এজেন্ট (Agent) — যে শিখছে (যেমন: সেই কুকুরছানা, গেমের বট কিংবা কোনো রোবট)।
- এনভায়রনমেন্ট (Environment) — এজেন্ট যে দুনিয়া বা পরিবেশে কাজ করে (যেমন: একটি রুম, কোনো গেম, বা কোনো ফ্যাক্টরির ফ্লোর)।
- স্টেট (State) — এজেন্ট ঠিক এই মুহূর্তে যা কিছু দেখছে বা বুঝতে পারছে (যেমন: রুমের অবস্থা, গেমের স্ক্রিন, বা সেন্সরের রিডিং)।
- অ্যাকশন (Action) — এজেন্ট যে কাজগুলো করতে পারে (যেমন: বসা, লাফ দেওয়া, বামে যাওয়া বা কোনো কিছু ধরা)।
পুরো চক্রটি মূলত এরকম: এজেন্ট একটি স্টেট (state) দেখে, তারপর একটি অ্যাকশন (action) নেয়, যার ফলে সে একটি রিওয়ার্ড (reward) (ইতিবাচক বা নেতিবাচক) পায়, এবং নতুন আরেকটি স্টেটে চলে যায়। এই চক্রটি বারবার চলতেই থাকে। আর এর মূল উদ্দেশ্য হলো: সময়ের সাথে সাথে একটি পলিসি (policy) বা নির্দিষ্ট কৌশল শেখা—যা তাকে ভবিষ্যতে সবচেয়ে বেশি রিওয়ার্ড পেতে সাহায্য করবে।
নতুন কিছু খোঁজা বনাম চেনা পথে হাঁটা (The Exploration-Exploitation Dilemma)
কল্পনা করুন, আপনি নতুন একটি শহরে গেছেন এবং রাতের খাবারের জন্য আপনি ভীষণ ক্ষুধার্ত। গতকাল আপনি একটি মোটামুটি ভালো রেস্টুরেন্ট বা খাবার দোকান খুঁজে পেয়েছিলেন, যাকে ১০-এর মধ্যে ৭ দেওয়া যায় (7/10)। এখন আপনি কি আবার সেখানেই ফিরে যাবেন (অর্থাৎ আপনার জানা জিনিসটির সদ্ব্যবহার বা exploit করবেন)? নাকি নতুন আরেকটি জায়গা খুঁজবেন (অর্থাৎ explore করবেন, যেখানে আপনি হয়তো ৯/১০ মানের একটি দারুণ খাবার পেতে পারেন — আবার সেটি ৩/১০ মানের জঘন্য খাবারও হতে পারে!)?
এটিই হলো এক্সপ্লোরেশন-এক্সপ্লয়েটেশন ডিলেমা (exploration-exploitation dilemma) বা পুরোনো নিয়মে চলা বনাম নতুন কিছু খোঁজার মধ্যকার দ্বন্দ্ব। আর এটিই আরএল (RL)-এর মূল ভিত্তি। যদি আপনি অতিরিক্ত এক্সপ্লয়েটেশন করেন: তবে আপনি মাঝারিমানেই আটকে থাকবেন। আর যদি অতিরিক্ত এক্সপ্লোরেশন করেন: তবে আপনি আপনার শেখা জ্ঞানকে কখনোই ঠিকঠাক কাজে লাগাতে পারবেন না। প্রতিটি আরএল (RL) অ্যালগরিদমকেই এই দুইয়ের মাঝে একটি চমৎকার ভারসাম্য বজায় রাখতে হয়।
এ ক্ষেত্রে একটি সাধারণ উপায় হলো: এপসাইলন-গ্রিডি (epsilon-greedy)। এপসাইলন সম্ভাবনায় (probablity) (ধরুন ১০% সময়ে), আপনি র্যান্ডম বা এলোমেলো কোনো অ্যাকশন বেছে নেবেন (অর্থাৎ এক্সপ্লোর করবেন)। আর বাকি (১-এপসাইলন) বা ৯০% সময়ে, আপনি আপনার জানা মতে সেরা অ্যাকশনটি বেছে নেবেন (অর্থাৎ এক্সপ্লয়েট করবেন)। সময়ের সাথে সাথে, এপসাইলনের পরিমাণ ধীরে ধীরে কমানো হয় — অর্থাৎ প্রথমে বেশি বেশি এক্সপ্লোর করা হয় এবং পরে শেখা জ্ঞানের ওপরে নির্ভর করে এক্সপ্লয়েট করতে হয়।
রিওয়ার্ড শেপিং (Reward Shaping): ইনসেন্টিভ বা পুরস্কারের কলাকৌশল
এআই-এর জন্য সঠিক রিওয়ার্ড ফাংশন ডিজাইন করাটা খুবই গুরুত্বপূর্ণ — এবং একই সাথে এটি বেশ কঠিনও। একটি রোবটকে যদি বলা হয় "দরজার কাছে পৌঁছাও", তাহলে সে হয়তো এমন একটি পদ্ধতি শিখতে পারে যেখানে সে কেবল সামনের দিকে হেলে পড়বে, কারণ সেন্সরটিকে দরজার সবচেয়ে কাছাকাছি নেওয়ার জন্য সেটিই হয়তো সবচেয়ে দ্রুত উপায়। আবার কোনো গেম বটকে যদি বেশি স্কোরের জন্য রিওয়ার্ড দেওয়া হয়, তবে সে হয়তো গেমটি ঠিকমতো খেলার বদলে গেমের কোনো বাগ বা ভুল বের করে এক জায়গাতেই বারবার স্কোর করতে থাকবে!
এই ব্যাপারটিকে রিওয়ার্ড হ্যাকিং (reward hacking) বলা হয়, এবং বর্তমান এআই-এর জন্য এটি সবচেয়ে বড় চ্যালেঞ্জগুলোর একটি। এগুলোর ক্ষেত্রে, এজেন্ট ঠিক ততটুকুই করবে যতটুকু করলে তাকে পুরস্কার বা ইনসেন্টিভ দেওয়া হবে — যা হয়তো আদতে আপনার আসল উদ্দেশ্য নাও হতে পারে।
গ্রিড ওয়ার্ল্ডে একটি সাধারণ আরএল (RL) এজেন্ট
আরএল বনাম সুপারভাইজড লার্নিং (RL vs Supervised Learning)
সুপারভাইজড লার্নিংয়ে (supervised learning) আপনার হাতে সঠিক উত্তরের একটি বিশাল ডেটাসেট থাকে: যেমন মডেলটি স্পষ্টভাবেই জানে যে "এই ছবিটি একটি বিড়ালের"। কিন্তু আরএল (RL)-এ আগে থেকে কোনো সঠিক উত্তর দেওয়া থাকে না — এজেন্ট কেবল কাজ করার পরই কিছু রিওয়ার্ড বা পুরস্কার পায়। এজেন্টকেই তার নিজের বুদ্ধি খাটিয়ে বুঝতে হয় যে তার আগের ঠিক কোন কাজের জন্য তাকে এই রিওয়ার্ড দেওয়া হয়েছে। যেমন: সে কি বসার কারণে ট্রিট বা পুরস্কার পেয়েছে, নাকি লেজ নাড়ানোর জন্য, নাকি আগে তিনবার ডাকার কারণে?
যেকোনো দেরিতে আসা পুরস্কারের (delayed reward) জন্য পেছনের কোন কাজটি দায়ী তা খুঁজে বের করার এই সমস্যাটিকে ক্রেডিট অ্যাসাইনমেন্ট প্রবলেম (credit assignment problem) বলা হয়। আর ঠিক এ কারণেই আরএল একই সাথে এতটা শক্তিশালী এবং ভীষণ চ্যালেঞ্জিং একটি বিষয়।
ছোট কুইজ
পড়া চালিয়ে যান