এলএলএম কীভাবে কাজ করে?
শব্দ আন্দাজ করার খেলা
কল্পনা করুন আপনি বন্ধুদের সাথে একটা খেলা খেলছেন। কেউ একটা বাক্যের অর্ধেকটা জোরে পড়ল আর থেমে গেল। সবাইকে বাকি অর্ধেকটা আন্দাজ করতে হবে।
"বিড়ালটি পাটির ওপর ___"
আপনি হয়তো বলবেন "বসে আছে" বা "শুয়ে আছে"। আপনি নিশ্চয়ই "গণতন্ত্র" বা "মহাকাশযান" বলবেন না। কেন? কারণ আপনি যথেষ্ট বাংলা শুনেছেন এবং জানেন কোন শব্দটি এখানে মানানসই হবে।
একটা এলএলএম ঠিক এভাবেই কাজ করে। তবে আপনার মতো কয়েক হাজার বাক্যের বদলে সে শত শত কোটি পেজ লেখা পড়েছে। আর সে আন্দাজ করে মনের খেয়ালে নয়, নিখুঁত প্রবাবিলিটি (Probability) বা গাণিতিক সম্ভাবনা হিসেব করে।
ধাপ ১: ট্রেনিং — ইন্টারনেটের দুনিয়া পড়া
এলএলএম কোনো কিছু আন্দাজ করার আগে তাকে শিখতে হয়। এই শেখার বা ট্রেনিং প্রসেসটা অনেকটা এমন:
- ডেটা সংগ্রহ — বই, ওয়েবসাইট, কোড, সায়েন্টিফিক পেপার, সোশ্যাল মিডিয়া থেকে ট্রিলিয়ন ট্রিলিয়ন শব্দ সংগ্রহ করা হয়।
- লুকানো শব্দ আন্দাজ — মডেলকে একটি বাক্য দেখানো হয় যার শেষ শব্দটি লুকানো থাকে। মডেলকে বলা হয় শব্দটি আন্দাজ করতে। এরপর দেখা হয় সে সঠিক কিনা।
- ভুল সংশোধন — যদি সে ভুল করে, তবে তার ভেতরের প্যারামিটারগুলো (নাব বা টিউন করার পয়েন্ট) এমনভাবে একটু বদলে দেওয়া হয় যাতে পরের বার সে সঠিকটা আন্দাজ করার সম্ভাবনা বাড়ে।
- কোটি কোটি বার পুনরাবৃত্তি — এই কাজটা ট্রেনিং ডেটার প্রতিটা বাক্যের জন্য বারবার করা হয়, যতক্ষণ না মডেলটি আন্দাজ করায় ওস্তাদ হয়ে ওঠে।
এই পুরো প্রসেসটা চলতে কয়েক সপ্তাহ থেকে কয়েক মাস সময় লাগে এবং এতে কোটি কোটি টাকা খরচ হয়।
ধাপ ২: নিউরাল নেটওয়ার্ক — প্যাটার্ন খোঁজার অনেকগুলো স্তর
এলএলএম-এর ভেতরে থাকে নিউরাল নেটওয়ার্ক — যা মানুষের মস্তিষ্কের গঠন থেকে অনুপ্রাণিত এক ধরণের গাণিতিক কাঠামো। একে একটি বহুতল কারখানার মতো কল্পনা করতে পারেন:
- নিচতলা — খুব সহজ প্যাটার্ন খুঁজে বের করে। যেমন- "'একটি' শব্দের পর সাধারণত বিশেষ্য বা নাউন বসে।" "বাক্যের শেষে দাড়ি বা কমা বসে।"
- মাঝের তলাগুলো — গ্রামার আর বাক্যের মানে বুঝে নেয়। "এই বাক্যটি একটি প্রশ্ন।" "এখানে 'কুকুর' হলো সাবজেক্ট আর সে 'দৌড়াচ্ছে' (কাজ)।"
- ওপরের তলাগুলো — জটিল সব ধারণা বুঝে নেয়। "এই প্যারাগ্রাফটা ব্যাঙ্গ করে লেখা হয়েছে।" "এই কোডটির ৩ নম্বর লাইনে একটা ভুল আছে।" "এই আইনি ধারার সাথে আগের ধারার মিল নেই।"
আধুনিক এলএলএম-গুলোতে ট্রান্সফর্মার (Transformer) নামক এক ধরণের আর্কিটেকচার ব্যবহার করা হয়। এর সবচেয়ে বড় উদ্ভাবন হলো অ্যাটেনশন (Attention) — মানে বাক্যের প্রতিটা শব্দ বাকি সব শব্দের দিকে 'মনোযোগ' দিতে পারে এবং বুঝতে পারে কোন শব্দগুলো সবচেয়ে গুরুত্বপূর্ণ।
যেমন- "বিড়ালটি যে কুকুরটিকে তাড়া করেছিল সেটি ক্লান্ত ছিল।" এখানে "ক্লান্ত" শব্দটি কাকে বোঝাচ্ছে তা বুঝতে অ্যাটেনশন মেকানিজম খুব সহজে "পিড়াল"-কে (কুকুর নয়) খুঁজে নেয়।
ধাপ ৩: নেক্সট-টোকেন প্রেডিকশন (Next-token prediction) — একটা একটা করে শব্দ
আপনি যখন এলএলএম-কে কোনো প্রশ্ন করেন, পর্দার আড়ালে যা ঘটে:
- আপনার লেখাটি ছোট ছোট টোকেন (Tokens) বা শব্দের টুকরোতে ভাগ করা হয়।
- এই টোকেনগুলো নিউরাল নেটওয়ার্কের স্তরগুলোর মধ্য দিয়ে যায়।
- নেটওয়ার্ক প্রতিটি সম্ভাব্য পরের টোকেনের জন্য একটি প্রবাবিলিটি (Probability) বা সম্ভাবনা হিসেব করে বের করে। হয়তো "ঢাকা"-র সম্ভাবনা ৪২%, "খুলনা"-র সম্ভাবনা ১০%, ইত্যাদি।
- একটি টোকেন বেছে নেওয়া হয় (কতটা সৃজনশীলভাবে বেছে নেওয়া হবে তা নির্ভর করে টেম্পারেচার (Temperature) সেটিংসের ওপর)।
- সেই টোকেনটি লেখার সাথে যোগ করা হয় এবং পুরো প্রসেসটি আবার পরের টোকেনের জন্য শুরু হয়।
এই কারণেই দেখবেন চাটজিপিটি (ChatGPT) বা ক্লড (Claude)-এ লেখাগুলো একটা একটা করে স্ক্রিনে ভেসে ওঠে — কারণ তারা আসলেই ওভাবেই একটা একটা করে শব্দ তৈরি করে!
ধাপ ৪: টেম্পারেচার (Temperature) — সৃজনশীলতার নব
টেম্পারেচার নিয়ন্ত্রণ করে এলএলএম কতটা সাহসী বা সৃজনশীল হবে:
- টেম্পারেচার ০ — সবসময় সবচেয়ে বেশি সম্ভাবনার শব্দটিই বেছে নেবে। এটি খুব নির্ভরযোগ্য এবং একই উত্তর বারবার দেবে। তথ্যমূলক কাজের জন্য ভালো।
- টেম্পারেচার ০.৭ — সাধারণত ভালো শব্দগুলোই নেবে, তবে মাঝেমধ্যে একটু ঝুঁকি নিয়ে অন্য শব্দও ট্রাই করবে। এটি অধিকাংশ কাজের জন্য আদর্শ।
- টেম্পারেচার ১.০+ — এটি পুরোপুরি র্যান্ডমনেস বা খেয়ালখুশিমতো শব্দ নেবে। এটি অনেক বেশি সৃজনশীল হতে পারে, তবে ভুল বা অপ্রাসঙ্গিক কথা বলার ঝুঁকিও বাড়ে। গল্প বা নতুন আইডিয়া খোঁজার জন্য ভালো।
একে একজন রাঁধুনির সাথে তুলনা করতে পারেন। টেম্পারেচার ০ হলে তিনি সবসময় একই রেসিপি মেনে রান্না করেন। টেম্পারেচার ১ হলে তিনি মাঝেমধ্যে নিজের মনমতো মশলা দেন — যা মাঝেমধ্যে দারুণ হয়, আবার মাঝেমধ্যে... একটু অখাদ্যও হতে পারে!
নেক্সট-ওয়ার্ড প্রেডিকশন (সহজ ধারণা)
ট্রেনিং পাইপলাইন: সাধারণ লেখা থেকে চ্যাটবট
চ্যাটজিপিটি (ChatGPT) বা ক্লড (Claude)-এর মতো চ্যাটবট তৈরির পেছনে তিনটি ধাপ থাকে:
- ধাপ ১: প্রি-ট্রেনিং (Pre-training) — ইন্টারনেটের ট্রিলিয়ন ট্রিলিয়ন শব্দ পড়া। শুধু পরের শব্দ আন্দাজ করা শেখা। এর ফলে একটি "বেস মডেল" তৈরি হয় যা টেক্সট পূর্ণ করতে ওস্তাদ কিন্তু কথা মানতে বা চ্যাট করতে জানে না। খরচ: ১০ মিলিয়ন - ১০০ মিলিয়ন ডলার বা তার বেশি।
- ধাপ ২: এসএফটি (SFT) বা ফাইন-টিউনিং — মডেলকে ভালো কথোপকথনের উদাহরণ দেখানো হয়: একজন মানুষ প্রশ্ন করছে, আর একজন সাহায্যকারী উত্তর দিচ্ছে। এখান থেকে মডেল চ্যাট করতে শেখে। খরচ: ১ লাখ - ১ মিলিয়ন ডলার।
- ধাপ ৩: আরএলএইচএফ (RLHF) — মানুষ মডেলের দেওয়া বিভিন্ন উত্তরের রেটিং দেয় (কোনটা ভালো আর কোনটা খারাপ)। মডেল তখন শিখতে পারে মানুষ কোন ধরণের উত্তর পছন্দ করে। এভাবেই মডেল সহায়ক, নির্ভুল এবং মার্জিত হতে শেখে। খরচ: ১ লাখ - ১ মিলিয়ন ডলার।
প্রতিটা ধাপ আগের ধাপের ওপর দাঁড়িয়ে থাকে। প্রি-ট্রেনিং মডেলকে জ্ঞান দেয়। ফাইন-টিউনিং তাকে আদব-কেতা শেখায়। আর আরএলএইচএফ তাকে মূল্যবোধ শেখায়।
কেন এই সাধারণ ধারণাটি এত ভালো কাজ করে?
এলএলএম-এর সবচেয়ে অবাক করা বিষয় হলো, শুধু পরের শব্দ আন্দাজ করার মতো সাধারণ একটা কাজ করতে গিয়েই তারা অনেক গভীর সব ক্ষমতা অর্জন করে ফেলে:
- গণিতের বইয়ের পরের শব্দ বলতে গিয়ে মডেলকে আসলে গণিত শিখতে হয়।
- কোড পূর্ণ করতে গিয়ে মডেলকে প্রোগ্রামিং শিখতে হয়।
- যুক্তি তর্কের পরের কথা বলতে গিয়ে মডেলকে লজিক শিখতে হয়।
- গল্প লিখতে গিয়ে মডেলকে কাহিনীর গঠন বুঝতে হয়।
তাই বলা হয়: "প্রেডিকশন (Prediction) করাই হলো বুদ্ধিমত্তা।" খুব নিখুঁতভাবে শব্দ আন্দাজ করতে গিয়ে মডেলকে আসলে দুনিয়ার একটা ম্যাপ তার নিজের ভেতরে তৈরি করে নিতে হয়।
ছোট কুইজ
পড়া চালিয়ে যান