What are LLMs?পড়তে ১২ মিনিট লাগবে

এলএলএম কীভাবে কাজ করে?

বিড়ালটি ___ এর ওপর বসে আছে। শত শত কোটি উদাহরণ আর গণিতের ম্যাজিকে মেশিন কীভাবে সঠিক শব্দটি খুঁজে পায়?

scope:প্রাথমিক ধারণাdifficulty:শিক্ষানবিস

শব্দ আন্দাজ করার খেলা

কল্পনা করুন আপনি বন্ধুদের সাথে একটা খেলা খেলছেন। কেউ একটা বাক্যের অর্ধেকটা জোরে পড়ল আর থেমে গেল। সবাইকে বাকি অর্ধেকটা আন্দাজ করতে হবে।

"বিড়ালটি পাটির ওপর ___"

আপনি হয়তো বলবেন "বসে আছে" বা "শুয়ে আছে"। আপনি নিশ্চয়ই "গণতন্ত্র" বা "মহাকাশযান" বলবেন না। কেন? কারণ আপনি যথেষ্ট বাংলা শুনেছেন এবং জানেন কোন শব্দটি এখানে মানানসই হবে।

একটা এলএলএম ঠিক এভাবেই কাজ করে। তবে আপনার মতো কয়েক হাজার বাক্যের বদলে সে শত শত কোটি পেজ লেখা পড়েছে। আর সে আন্দাজ করে মনের খেয়ালে নয়, নিখুঁত প্রবাবিলিটি (Probability) বা গাণিতিক সম্ভাবনা হিসেব করে।

ধাপ ১: ট্রেনিং — ইন্টারনেটের দুনিয়া পড়া

এলএলএম কোনো কিছু আন্দাজ করার আগে তাকে শিখতে হয়। এই শেখার বা ট্রেনিং প্রসেসটা অনেকটা এমন:

ডেটা সংগ্রহ — বই, ওয়েবসাইট, কোড, সায়েন্টিফিক পেপার, সোশ্যাল মিডিয়া থেকে ট্রিলিয়ন ট্রিলিয়ন শব্দ সংগ্রহ করা হয়।
লুকানো শব্দ আন্দাজ — মডেলকে একটি বাক্য দেখানো হয় যার শেষ শব্দটি লুকানো থাকে। মডেলকে বলা হয় শব্দটি আন্দাজ করতে। এরপর দেখা হয় সে সঠিক কিনা।
ভুল সংশোধন — যদি সে ভুল করে, তবে তার ভেতরের প্যারামিটারগুলো (নাব বা টিউন করার পয়েন্ট) এমনভাবে একটু বদলে দেওয়া হয় যাতে পরের বার সে সঠিকটা আন্দাজ করার সম্ভাবনা বাড়ে।
কোটি কোটি বার পুনরাবৃত্তি — এই কাজটা ট্রেনিং ডেটার প্রতিটা বাক্যের জন্য বারবার করা হয়, যতক্ষণ না মডেলটি আন্দাজ করায় ওস্তাদ হয়ে ওঠে।

এই পুরো প্রসেসটা চলতে কয়েক সপ্তাহ থেকে কয়েক মাস সময় লাগে এবং এতে কোটি কোটি টাকা খরচ হয়।

ধাপ ২: নিউরাল নেটওয়ার্ক — প্যাটার্ন খোঁজার অনেকগুলো স্তর

এলএলএম-এর ভেতরে থাকে নিউরাল নেটওয়ার্ক — যা মানুষের মস্তিষ্কের গঠন থেকে অনুপ্রাণিত এক ধরণের গাণিতিক কাঠামো। একে একটি বহুতল কারখানার মতো কল্পনা করতে পারেন:

নিচতলা — খুব সহজ প্যাটার্ন খুঁজে বের করে। যেমন- "'একটি' শব্দের পর সাধারণত বিশেষ্য বা নাউন বসে।" "বাক্যের শেষে দাড়ি বা কমা বসে।"
মাঝের তলাগুলো — গ্রামার আর বাক্যের মানে বুঝে নেয়। "এই বাক্যটি একটি প্রশ্ন।" "এখানে 'কুকুর' হলো সাবজেক্ট আর সে 'দৌড়াচ্ছে' (কাজ)।"
ওপরের তলাগুলো — জটিল সব ধারণা বুঝে নেয়। "এই প্যারাগ্রাফটা ব্যাঙ্গ করে লেখা হয়েছে।" "এই কোডটির ৩ নম্বর লাইনে একটা ভুল আছে।" "এই আইনি ধারার সাথে আগের ধারার মিল নেই।"

আধুনিক এলএলএম-গুলোতে ট্রান্সফর্মার (Transformer) নামক এক ধরণের আর্কিটেকচার ব্যবহার করা হয়। এর সবচেয়ে বড় উদ্ভাবন হলো অ্যাটেনশন (Attention) — মানে বাক্যের প্রতিটা শব্দ বাকি সব শব্দের দিকে 'মনোযোগ' দিতে পারে এবং বুঝতে পারে কোন শব্দগুলো সবচেয়ে গুরুত্বপূর্ণ।

যেমন- "বিড়ালটি যে কুকুরটিকে তাড়া করেছিল সেটি ক্লান্ত ছিল।" এখানে "ক্লান্ত" শব্দটি কাকে বোঝাচ্ছে তা বুঝতে অ্যাটেনশন মেকানিজম খুব সহজে "পিড়াল"-কে (কুকুর নয়) খুঁজে নেয়।

ধাপ ৩: নেক্সট-টোকেন প্রেডিকশন (Next-token prediction) — একটা একটা করে শব্দ

আপনি যখন এলএলএম-কে কোনো প্রশ্ন করেন, পর্দার আড়ালে যা ঘটে:

আপনার লেখাটি ছোট ছোট টোকেন (Tokens) বা শব্দের টুকরোতে ভাগ করা হয়।
এই টোকেনগুলো নিউরাল নেটওয়ার্কের স্তরগুলোর মধ্য দিয়ে যায়।
নেটওয়ার্ক প্রতিটি সম্ভাব্য পরের টোকেনের জন্য একটি প্রবাবিলিটি (Probability) বা সম্ভাবনা হিসেব করে বের করে। হয়তো "ঢাকা"-র সম্ভাবনা ৪২%, "খুলনা"-র সম্ভাবনা ১০%, ইত্যাদি।
একটি টোকেন বেছে নেওয়া হয় (কতটা সৃজনশীলভাবে বেছে নেওয়া হবে তা নির্ভর করে টেম্পারেচার (Temperature) সেটিংসের ওপর)।
সেই টোকেনটি লেখার সাথে যোগ করা হয় এবং পুরো প্রসেসটি আবার পরের টোকেনের জন্য শুরু হয়।

এই কারণেই দেখবেন চাটজিপিটি (ChatGPT) বা ক্লড (Claude)-এ লেখাগুলো একটা একটা করে স্ক্রিনে ভেসে ওঠে — কারণ তারা আসলেই ওভাবেই একটা একটা করে শব্দ তৈরি করে!

ধাপ ৪: টেম্পারেচার (Temperature) — সৃজনশীলতার নব

টেম্পারেচার নিয়ন্ত্রণ করে এলএলএম কতটা সাহসী বা সৃজনশীল হবে:

টেম্পারেচার ০ — সবসময় সবচেয়ে বেশি সম্ভাবনার শব্দটিই বেছে নেবে। এটি খুব নির্ভরযোগ্য এবং একই উত্তর বারবার দেবে। তথ্যমূলক কাজের জন্য ভালো।
টেম্পারেচার ০.৭ — সাধারণত ভালো শব্দগুলোই নেবে, তবে মাঝেমধ্যে একটু ঝুঁকি নিয়ে অন্য শব্দও ট্রাই করবে। এটি অধিকাংশ কাজের জন্য আদর্শ।
টেম্পারেচার ১.০+ — এটি পুরোপুরি র্যান্ডমনেস বা খেয়ালখুশিমতো শব্দ নেবে। এটি অনেক বেশি সৃজনশীল হতে পারে, তবে ভুল বা অপ্রাসঙ্গিক কথা বলার ঝুঁকিও বাড়ে। গল্প বা নতুন আইডিয়া খোঁজার জন্য ভালো।

একে একজন রাঁধুনির সাথে তুলনা করতে পারেন। টেম্পারেচার ০ হলে তিনি সবসময় একই রেসিপি মেনে রান্না করেন। টেম্পারেচার ১ হলে তিনি মাঝেমধ্যে নিজের মনমতো মশলা দেন — যা মাঝেমধ্যে দারুণ হয়, আবার মাঝেমধ্যে... একটু অখাদ্যও হতে পারে!

নেক্সট-ওয়ার্ড প্রেডিকশন (সহজ ধারণা)

import random

# Simplified: a tiny "language model" based on word frequencies
# Real LLMs use neural networks, but the core idea is the same!

# What word typically follows these phrases?
patterns = {
    "the cat sat on the": {"mat": 0.5, "couch": 0.2, "floor": 0.2, "bed": 0.1},
    "once upon a":        {"time": 0.95, "day": 0.03, "hill": 0.02},
    "to be or not to":    {"be": 0.99, "exist": 0.01},
}

def predict_next_word(prompt, temperature=0.0):
    """Predict the next word given a prompt."""
    probs = patterns.get(prompt.lower(), {"...": 1.0})
    
    if temperature == 0:
        # Always pick the most likely word
        return max(probs, key=probs.get)
    else:
        # Higher temperature = more randomness
        words = list(probs.keys())
        weights = list(probs.values())
        return random.choices(words, weights=weights)[0]

# Temperature 0: always picks the top prediction
print("Temp 0:", predict_next_word("the cat sat on the", temperature=0))
print("Temp 0:", predict_next_word("once upon a", temperature=0))

# Temperature 1: sometimes picks less likely words
print("Temp 1:", predict_next_word("the cat sat on the", temperature=1))

Output

Temp 0: mat
Temp 0: time
Temp 1: couch  (প্রতিবার ভিন্ন হতে পারে!)

Note: সহজ বাংলায় অ্যাটেনশন (Attention) মেকানিজম: ধরুন আপনি পড়ছেন "নদীর পাড়ে বসে থাকা বিড়ালটি খুব ক্লান্ত ছিল।" আপনি যখন "ক্লান্ত" শব্দটি দেখছেন, আপনার মস্তিষ্ক সাথে সাথে তাকে "বিড়াল"-এর সাথে মিলিয়ে নিচ্ছে। অ্যাটেনশন একদম একইভাবে কাজ করে — এটি প্রতিটি শব্দকে অন্য সব শব্দের দিকে তাকাতে দেয় এবং বুঝতে সাহায্য করে কোনগুলো সবচেয়ে প্রাসঙ্গিক। এই কারণেই এই প্রযুক্তির বিখ্যাত পেপারটির নাম ছিল "Attention Is All You Need"।

ট্রেনিং পাইপলাইন: সাধারণ লেখা থেকে চ্যাটবট

চ্যাটজিপিটি (ChatGPT) বা ক্লড (Claude)-এর মতো চ্যাটবট তৈরির পেছনে তিনটি ধাপ থাকে:

ধাপ ১: প্রি-ট্রেনিং (Pre-training) — ইন্টারনেটের ট্রিলিয়ন ট্রিলিয়ন শব্দ পড়া। শুধু পরের শব্দ আন্দাজ করা শেখা। এর ফলে একটি "বেস মডেল" তৈরি হয় যা টেক্সট পূর্ণ করতে ওস্তাদ কিন্তু কথা মানতে বা চ্যাট করতে জানে না। খরচ: ১০ মিলিয়ন - ১০০ মিলিয়ন ডলার বা তার বেশি।
ধাপ ২: এসএফটি (SFT) বা ফাইন-টিউনিং — মডেলকে ভালো কথোপকথনের উদাহরণ দেখানো হয়: একজন মানুষ প্রশ্ন করছে, আর একজন সাহায্যকারী উত্তর দিচ্ছে। এখান থেকে মডেল চ্যাট করতে শেখে। খরচ: ১ লাখ - ১ মিলিয়ন ডলার।
ধাপ ৩: আরএলএইচএফ (RLHF) — মানুষ মডেলের দেওয়া বিভিন্ন উত্তরের রেটিং দেয় (কোনটা ভালো আর কোনটা খারাপ)। মডেল তখন শিখতে পারে মানুষ কোন ধরণের উত্তর পছন্দ করে। এভাবেই মডেল সহায়ক, নির্ভুল এবং মার্জিত হতে শেখে। খরচ: ১ লাখ - ১ মিলিয়ন ডলার।

প্রতিটা ধাপ আগের ধাপের ওপর দাঁড়িয়ে থাকে। প্রি-ট্রেনিং মডেলকে জ্ঞান দেয়। ফাইন-টিউনিং তাকে আদব-কেতা শেখায়। আর আরএলএইচএফ তাকে মূল্যবোধ শেখায়।

কেন এই সাধারণ ধারণাটি এত ভালো কাজ করে?

এলএলএম-এর সবচেয়ে অবাক করা বিষয় হলো, শুধু পরের শব্দ আন্দাজ করার মতো সাধারণ একটা কাজ করতে গিয়েই তারা অনেক গভীর সব ক্ষমতা অর্জন করে ফেলে:

গণিতের বইয়ের পরের শব্দ বলতে গিয়ে মডেলকে আসলে গণিত শিখতে হয়।
কোড পূর্ণ করতে গিয়ে মডেলকে প্রোগ্রামিং শিখতে হয়।
যুক্তি তর্কের পরের কথা বলতে গিয়ে মডেলকে লজিক শিখতে হয়।
গল্প লিখতে গিয়ে মডেলকে কাহিনীর গঠন বুঝতে হয়।

তাই বলা হয়: "প্রেডিকশন (Prediction) করাই হলো বুদ্ধিমত্তা।" খুব নিখুঁতভাবে শব্দ আন্দাজ করতে গিয়ে মডেলকে আসলে দুনিয়ার একটা ম্যাপ তার নিজের ভেতরে তৈরি করে নিতে হয়।

Challenge

ছোট কুইজ

একটি এলএলএম ট্রেনিংয়ের সময় মূলত কোন কাজটি করতে শেখে?

পড়া চালিয়ে যান

এলএলএম (LLM) কী?

এক বিশাল পাঠক যে দুনিয়ার সব বই পড়ে ফেলেছে এবং এখন আপনার কথা শেষ করতে সাহায্য করে

→

টোকেন ও কনটেক্সট উইন্ডো

শব্দগুলোকে ছোট ছোট টুকরোয় ভাগ করা হয়, আর এআই একসাথে কেবল নির্দিষ্ট কিছু টুকরোই মনে রাখতে পারে

→

চ্যাটজিপিটি (ChatGPT)

সেই চ্যাটবট যা মাত্র ৫ দিনে ইন্টারনেট তোলপাড় করে দিয়েছিল এবং এআই সম্পর্কে আমাদের ধারণাই বদলে দিয়েছিল

→

ক্লড (Claude)

শুরু থেকেই নিরাপদ, ক্ষতিকর নয় এবং সৎ হওয়ার শপথ নিয়ে তৈরি — আলাপ করুন অ্যানথ্রোপিকের ক্লড-এর সাথে

→