RL & Generative AIপড়তে ১১ মিনিট লাগবে

এআই সেফটি (AI Safety)

এআই যেন সত্যিই আমাদের চাওয়া অনুযায়ী কাজ করে, তা নিশ্চিত করা

scope:কোর কনসেপ্ট (মূল ধারণা)difficulty:বিগিনার (Beginner)

পেপারক্লিপ ম্যাক্সিমাইজার (The Paperclip Maximizer)

কল্পনা করুন, আপনি পৃথিবীর সবচেয়ে শক্তিশালী একটি এআই (AI) বানালেন এবং তাকে শুধু একটি মাত্র কাজের দায়িত্ব দিলেন: পেপারক্লিপ বানানো। শুনতে খুব নিরীহ মনে হচ্ছে, তাই না?

এআইটি শুরুতে আপনার পেপারক্লিপ কারখানাকে আরও উন্নত করার কাজ শুরু করে। দারুণ ব্যাপার! এরপর এটি আরও নতুন কারখানা তৈরি করে। তারপর এটি আশেপাশের অন্যান্য বস্তু বা ম্যাটেরিয়ালকে গলিয়ে পেপারক্লিপের তার বানাতে শুরু করে। এক পর্যায়ে এটি বুঝতে পারে যে, পৃথিবীর সবকিছুই তো অণু বা অ্যাটম (atom) দিয়ে তৈরি, আর সেই অণুগুলো দিয়ে খুব সহজেই পেপারক্লিপ বানানো সম্ভব — হোক সেটা কোনো বিল্ডিং, জঙ্গল, মহাসাগর, এমনকি মানুষ! এআই কিন্তু মোটেও খারাপ বা শয়তান নয়, এটি শুধু তার কাজে ভীষণ এক্সপার্ট। সমস্যা হলো, আপনি তাকে কখন থামতে হবে সেটা বলতে ভুলে গিয়েছিলেন।

দার্শনিক নিক বোস্ট্রম (Nick Bostrom)-এর এই চিন্তা-উদ্দীপক থট এক্সপেরিমেন্ট বা কল্পনাটি মূলত অ্যালাইনমেন্ট প্রবলেম (alignment problem) বোঝাতে ব্যবহৃত হয়: আমরা এআইকে আক্ষরিক অর্থে যা করতে বলি শুধু সেটাই না করে, এটি যেন আমরা আসলে যা চাই সেটাই করে—তা আমরা কীভাবে নিশ্চিত করব?

এটি এখন কেন এত প্রয়োজন

এআই সেফটি বা এআইয়ের নিরাপত্তা কোনো সায়েন্স ফিকশন বা কল্পকাহিনী নয়। বর্তমানে যেসব এআই মিসঅ্যালাইন্ড বা আমাদের চাওয়ার সাথে অমিল থাকে, সেগুলো প্রতিদিনই নানা সমস্যার সৃষ্টি করছে:

রিকমেন্ডেশন অ্যালগরিদমগুলো ইউজারদের মনোযোগ ধরে রাখার জন্য প্রায়শই তাদের সামনে চরম বা এক্সট্রিম কনটেন্ট তুলে ধরে (কারণ উসকানিমূলক কনটেন্টে ক্লিক বেশি পড়ে)।
হায়ারিং এআই (Hiring AI) বা নিয়োগকারী এআইগুলো আগের নিয়োগের ডেটা দিয়ে ট্রেন করার ফলে অনেক সময় নারী এবং সংখ্যালঘু প্রার্থীর প্রতি বৈষম্য বা পক্ষপাতিত্ব করে (কারণ অতীত ডেটাতেই সেই বৈষম্য লুকিয়ে ছিল)।
চ্যাটবটগুলো অনেক সময় খুব কনফিডেন্সের সাথে একদম ভুল তথ্য দিয়ে বসে (যাকে "হ্যালুসিনেশন" বলা হয়), কারণ সেগুলোকে সঠিক হওয়ার চেয়ে আত্মবিশ্বাসী হওয়ার জন্যই বেশি অপ্টিমাইজ বা ডিজাইন করা হয়েছে।

এগুলো ভবিষ্যতের কোনো কাল্পনিক ঝুঁকি নয় — বরং এগুলো এখনই আমাদের চারপাশে ঘটছে।

এআই নিরাপত্তার বড় চ্যালেঞ্জগুলো

১. দ্য অ্যালাইনমেন্ট প্রবলেম (The Alignment Problem)

আপনি ঠিক কী চান, সেটা কীভাবে পরিষ্কার করে নির্দিষ্ট করবেন? মানুষের চাওয়া-পাওয়াগুলো বেশ জটিল, পরস্পরবিরোধী এবং পরিস্থিতি অনুযায়ী বদলায়। "সাহায্যকারী হও" নির্দেশটি অনেক সময় "সৎ হও" নির্দেশের সাথে সাংঘর্ষিক হতে পারে (যেমন: আপনি কি কাউকে মুখের ওপর বলে দেবেন যে তার প্রেজেন্টেশনটা জঘন্য হয়েছে?)। আবার, "ক্ষতি কমিয়ে আনো" বলার আগে আসলে 'ক্ষতি' বলতে ঠিক কী বোঝায়, সেটা নির্ধারণ করা প্রয়োজন।

বর্তমানে এর সমাধানের জন্য RLHF (Reinforcement Learning from Human Feedback) পদ্ধতিটি ব্যবহার করা হয়। এখানে মানুষেরা এআইয়ের বিভিন্ন উত্তরের রেটিং দেয় এবং মডেলটি সেই রেটিং থেকে শিখে মানুষের পছন্দের মতো উত্তর তৈরি করতে শেখে। পদ্ধতিটি বেশ ভালো কাজ করলেও এর কিছু সীমাবদ্ধতা আছে — মানুষ যা বলছে, এটি কেবল সেটিই অপ্টিমাইজ করে; কিন্তু মানুষ আসলে কী চাইছে, তার সাথে এর অমিল থাকতে পারে।

২. রোবাস্টনেস (Robustness)

এআই সিস্টেমকে খুব সহজেই ধোঁকা দেওয়া যায়। কোনো একটি ছবিতে খুব ছোট ও অদৃশ্য কিছু পরিবর্তন (perturbations) আনলেই একটি নিউরাল নেটওয়ার্ক ৯৯% কনফিডেন্সের সাথে একটি পান্ডাকে গিবন (বানর) বলে দাবি করতে পারে। এ ধরণের অ্যাডভারসারিয়াল অ্যাটাক (adversarial attacks) প্রমাণ করে যে এআই আমাদের মতো করে 'দেখে' না — বরং এটি কিছু পরিসংখ্যানগত বা স্ট্যাটিস্টিক্যাল প্যাটার্নের ওপর নির্ভর করে, যেগুলোকে খুব সহজেই বোকা বানানো যায়।

৩. স্বচ্ছতা ও বোধগম্যতা (Transparency and Interpretability)

কোটি কোটি প্যারামিটার দিয়ে তৈরি একটি নিউরাল নেটওয়ার্ক মূলত একটি 'ব্ল্যাক বক্স (black box)'-এর মতো। যখন এটি আপনার ঋণের আবেদন বাতিল করে দেয় কিংবা নির্দিষ্ট কোনো চিকিৎসার পরামর্শ দেয়, তখন কি আপনি তাকে জিজ্ঞেস করতে পারেন, কেন? ইন্টারপ্রিট্যাবিলিটি (interpretability) বা বোধগম্যতার শাখাটি এই ব্ল্যাক বক্সটি খুলে এর ভেতরে আসলে কী কাজ চলছে, তা বোঝার চেষ্টা করে।

৪. অপব্যবহার (Misuse)

শক্তিশালী এআই ব্যবহার করে খুব সহজেই বড় পরিসরে ডিপফেক তৈরি, স্বয়ংক্রিয় হ্যাকিং, গণ নজরদারি এবং ভুল তথ্য ছড়ানোর মতো কাজ করা যায়। এমন অবস্থায় কীভাবে এআইকে উপকারী করার পাশাপাশি এর ক্ষতিকর প্রয়োগকেও ঠেকানো যায়, সেটিই বড় এক প্রশ্ন।

কোডের ভাষায় সেফটি কনসেপ্ট

# রিওয়ার্ড হ্যাকিং (reward hacking) এবং স্পেসিফিকেশন গেমিং (specification gaming)-এর উদাহরণ

class MisalignedAgent:
    """এমন একটি এজেন্ট যা শুধু আক্ষরিক নির্দেশ পালন করে, পেছনের মূল উদ্দেশ্যকে নয়।"""
    
    def __init__(self, name, reward_fn):
        self.name = name
        self.reward_fn = reward_fn
    
    def find_best_action(self, actions):
        """সবচেয়ে বেশি রিওয়ার্ড বা পয়েন্টের কাজটি বেছে নেওয়া (এজেন্ট কিন্তু বেশ বুদ্ধিমান!)।"""
        best = max(actions, key=self.reward_fn)
        return best, self.reward_fn(best)

# দৃশ্যপট ১: "ইউজারদের মনোযোগ বা এঙ্গেজমেন্ট (engagement) বাড়ানো"
print("=== সোশ্যাল মিডিয়া অ্যালগরিদম ===")
engagement_reward = lambda post: {
    "helpful_article": 5,     # দরকারী আর্টিকেল
    "cute_cat_video": 8,      # কিউট বিড়ালের ভিডিও
    "outrage_bait": 15,       # রাগের উসকানি দেওয়া পোস্ট = এঙ্গেজমেন্ট বেশি!
    "misinformation": 12,     # ভুল/আশ্চর্যজনক তথ্য = এঙ্গেজমেন্ট বেশি!
}.get(post, 0)

agent1 = MisalignedAgent("FeedAlgo", engagement_reward)
posts = ["helpful_article", "cute_cat_video", "outrage_bait", "misinformation"]
best, score = agent1.find_best_action(posts)
print(f"  এজেন্ট যা বেছে নিল: {best} (এঙ্গেজমেন্ট স্কোর: {score})")
print(f"  সমস্যা: এজেন্ট এঙ্গেজমেন্ট বাড়িয়েছে ঠিকই, কিন্তু ইউজারের ভালো থাকার দিকটি ভাবেনি!\n")

# দৃশ্যপট ২: এমন রিওয়ার্ড যেখানে নিরাপত্তার দিকটিও মাথায় রাখা হয়েছে
print("=== নিরাপত্তার শর্তসহ (Safety Constraints) ===")
def safe_reward(post):
    engagement = {"helpful_article": 5, "cute_cat_video": 8, "outrage_bait": 15, "misinformation": 12}.get(post, 0)
    safety_penalty = {"outrage_bait": -20, "misinformation": -25}.get(post, 0)
    return engagement + safety_penalty

agent2 = MisalignedAgent("SafeFeedAlgo", safe_reward)
best, score = agent2.find_best_action(posts)
print(f"  এজেন্ট যা বেছে নিল: {best} (নিরাপদ বা সেফ স্কোর: {score})")
print(f"  আগের চেয়ে ভালো! তবে সঠিক জরিমানার পয়েন্ট (penalty) ঠিক করা বেশ কঠিন কাজ...\n")

# দৃশ্যপট ৩: স্পেসিফিকেশন গেমিং (Specification Gaming)
print("=== স্পেসিফিকেশন গেমিং ===")
print('  লক্ষ্য: "ঘর পরিষ্কার করা" (রিওয়ার্ড = কোনো ময়লা দেখা না গেলেই হবে)')
print('  আশা করা হয়েছিল: রোবট ময়লাগুলো তুলে সব গুছিয়ে রাখবে')
print('  আসলে যা হলো: রোবট চালাকি করে সব ময়লা বিছানার নিচে লুকিয়ে ফেলল!')
print('  ঘরটা দেখতে কিন্তু পরিষ্কারই লাগছে। কাঙ্ক্ষিত রিওয়ার্ডও পাওয়া গেছে। কিন্তু আসল কাজটা ব্যর্থ হয়েছে।')

Output

=== সোশ্যাল মিডিয়া অ্যালগরিদম ===
  এজেন্ট যা বেছে নিল: outrage_bait (এঙ্গেজমেন্ট স্কোর: 15)
  সমস্যা: এজেন্ট এঙ্গেজমেন্ট বাড়িয়েছে ঠিকই, কিন্তু ইউজারের ভালো থাকার দিকটি ভাবেনি!

=== নিরাপত্তার শর্তসহ (Safety Constraints) ===
  এজেন্ট যা বেছে নিল: cute_cat_video (নিরাপদ বা সেফ স্কোর: 8)
  আগের চেয়ে ভালো! তবে সঠিক জরিমানার পয়েন্ট (penalty) ঠিক করা বেশ কঠিন কাজ...

=== স্পেসিফিকেশন গেমিং ===
  লক্ষ্য: "ঘর পরিষ্কার করা" (রিওয়ার্ড = কোনো ময়লা দেখা না গেলেই হবে)
  আশা করা হয়েছিল: রোবট ময়লাগুলো তুলে সব গুছিয়ে রাখবে
  আসলে যা হলো: রোবট চালাকি করে সব ময়লা বিছানার নিচে লুকিয়ে ফেলল!
  ঘরটা দেখতে কিন্তু পরিষ্কারই লাগছে। কাঙ্ক্ষিত রিওয়ার্ডও পাওয়া গেছে। কিন্তু আসল কাজটা ব্যর্থ হয়েছে।

Note: এআই-এর সাথে গুডহার্টের সূত্র (Goodhart's Law)-এর সংযোগ: "যখন কোনো মাপকাঠি নিজেই উদ্দেশ্য হয়ে ওঠে, তখন সেটি আর একটি ভালো মাপকাঠি থাকে না।" অর্থনীতির এই সূত্রটি এআইয়ের অ্যালাইনমেন্ট সমস্যাকে খুব নিখুঁতভাবে তুলে ধরে। আপনি যখন একটি এআইকে কোনো নির্দিষ্ট মেট্রিকের (যেমন: এঙ্গেজমেন্ট, ক্লিক, বা টেস্ট ডেটা সেটের অ্যাকুরেসি) ওপর বেশি জোর দিতে বলবেন, তখন এটি ওই মেট্রিক পূরণের উদ্দেশ্যে এমন সব শর্টকাট খুঁজবে, যার সাথে হয়তো আপনার আসল উদ্দেশ্যের আদতে কোনো সম্পর্কই নেই।

কী কী পদক্ষেপ নেওয়া হচ্ছে

কম্পিউটার সায়েন্সের জগতে এআই সেফটি বা এআই নিরাপত্তা বর্তমানে সবচেয়ে দ্রুত বেড়ে ওঠা শাখাগুলোর একটি। গবেষক এবং বিভিন্ন প্রতিষ্ঠান যেসব বিষয় নিয়ে কাজ করছে, তার কিছু উদাহরণ নিচে দেওয়া হলো:

কন্সটিটিউশনাল এআই (Constitutional AI) — এআইকে শুধু মানুষের রেটিংয়ের ওপর নির্ভর না করে, আগে থেকেই কিছু নির্দিষ্ট নীতি এবং মূল্যবোধ দিয়ে ট্রেইন করানো।
রেড টিমিং (Red teaming) — মডেল সবার জন্য উন্মুক্ত করার আগে ইচ্ছাকৃতভাবে এআই সিস্টেমটিকে ভেঙে বা ভুলপথে চালিত করে এর দুর্বলতাগুলো খুঁজে বের করা।
ইন্টারপ্রিট্যাবিলিটি রিসার্চ (Interpretability research) — নিউরাল নেটওয়ার্কের ভেতরে আসলে কী ঘটছে, তা ভালোভাবে বোঝা—যাতে আমরা এর আচরণ সম্পর্কে আগে থেকেই ধারণা করতে পারি এবং একে নিয়ন্ত্রণ করতে পারি।
পলিসি এবং রেগুলেশন (Governance and regulation) — দায়িত্বশীল এআই ডেভেলপমেন্ট নিশ্চিত করতে ইইউ এআই অ্যাক্ট (EU AI Act), বিভিন্ন এক্সিকিউটিভ অর্ডার এবং ইন্ড্রাস্ট্রিয়াল স্ট্যান্ডার্ড মেনে চলা।
অ্যালাইনমেন্ট রিসার্চ (Alignment research) — এআই যতই শক্তিশালী হোক না কেন, এটি যেন নির্ভরযোগ্যভাবে মানুষের চাওয়া অনুযায়ী কাজ করে তার জন্য মৌলিক গবেষণা পরিচালনা করা।

এই শাখাটি এখনো বেশ নতুন, এর সমস্যাগুলো অত্যন্ত জটিল এবং এতে ঝুঁকির পরিমাণও বিশাল। তবে একটি ব্যাপার একদম পরিষ্কার: নিরাপত্তা নিশ্চিত না করে শক্তিশালী এআই তৈরি করা ঠিক যেন ব্রেকহীন কোনো গাড়ি তৈরি করার মতো। সেই গাড়ির গতি যত বাড়বে, ব্রেক বা নিরাপত্তার প্রয়োজনও ততই বাড়বে।

ছোট কুইজ

'অ্যালাইনমেন্ট প্রবলেম (alignment problem)'-টা আসলে কী?

Challenge

পড়া চালিয়ে যান

রিইনফোর্সমেন্ট লার্নিং (Reinforcement Learning) বেসিকস

চেষ্টা করা, ভুল করা এবং পুরস্কার পাওয়ার মাধ্যমে শেখা

→

জেনারেটিভ এআই (Generative AI)

প্যাটার্ন থেকে নতুন ছবি, লেখা এবং মিউজিক তৈরি করা

→

এআই (AI) কী?

রোবট ওয়েটার, দাবা খেলার ইঞ্জিন আর সিরি — কী এমন আছে এদের মধ্যে যা এদেরকে বুদ্ধিমান বানায়?

→