What are LLMs?পড়তে ১০ মিনিট লাগবে

এলএলএম (LLM) কী?

এক বিশাল পাঠক যে দুনিয়ার সব বই পড়ে ফেলেছে এবং এখন আপনার কথা শেষ করতে সাহায্য করে

scope:প্রাথমিক ধারণাdifficulty:শিক্ষানবিস

বিশাল এক পাঠক

কল্পনা করুন এমন একজন মানুষের কথা যে লাইব্রেরির প্রতিটা বই পড়ে ফেলেছে। উইকিপিডিয়ার প্রতিটা আর্টিকেল, ফেসবুকের পোস্ট, বিডিনিউজ২৪-এর খবর, কবিতা, রান্নার রেসিপি আর অনলাইনে পোস্ট করা হাজার হাজার প্রেমপত্র — সব তার মুখস্থ। কোটি কোটি কোটি শব্দ!

এখন ভাবুন, এই পাঠক সবকিছু হুবহু মুখস্থ করেনি। বরং সে প্যাটার্ন বা ধরণগুলো খেয়াল করেছে। সে শিখেছে যে "এক দেশে ছিল এক" বললে পরের শব্দটা প্রায় সবসময়ই "রাজা" হয়। সে শিখেছে যে রান্নার রেসিপি সাধারণত ক্রিয়া বা কাজ দিয়ে শুরু হয়। সে এটাও বুঝেছে যে কেউ যখন "খুব খারাপ" বলে, তখন পরের কথাগুলো সাধারণত দুঃখের হয়।

সেই বিশাল পাঠকই হলো এলএলএম (LLM) — পুরো নাম লার্জ ল্যাঙ্গুয়েজ মডেল (Large Language Model)।

LLM আসলে কী বোঝায়?

চলুন একে তিন ভাগে ভাগ করি:

লার্জ (Large) বা বিশাল — এই মডেলগুলো আকারে বিশাল। জিপিটি-৪ (GPT-4)-এর শত শত কোটি প্যারামিটার আছে (এগুলোকে নব বা নব ঘুরিয়ে টিউন করার মতো ছোট ছোট মান হিসেবে ভাবতে পারেন)। এগুলো চালানোর জন্য বিশাল বিশাল কম্পিউটারের ঘর বা সার্ভারের দরকার হয়।
ল্যাঙ্গুয়েজ (Language) বা ভাষা — এগুলো মানুষের ভাষা নিয়ে কাজ করে: বাংলা, ইংরেজি, স্প্যানিশ, পাইথন কোড, গণিতের চিহ্ন — টেক্সট জাতীয় সবকিছুই এদের ভাষা।
মডেল (Model) — মডেল হলো জটিল কোনো জিনিসের সহজ রূপ। যেমন একটা গ্লোব হলো পৃথিবীর মডেল। তেমনি এলএলএম হলো ভাষা কীভাবে কাজ করে তার একটি মডেল।

সহজ কথায়: এলএলএম হলো একটি বিশাল গাণিতিক মডেল যা প্রচুর পরিমাণে লেখা পড়ার মাধ্যমে মানুষের ভাষার ধরণগুলো শিখে নিয়েছে।

বিশ্বের সবচেয়ে স্মার্ট অটো-কমপ্লিট

আপনার ফোনের অটো-কমপ্লিটের কথা মনে আছে? যখন আপনি "কেমন" লেখেন আর ওপর থেকে সাজেস্ট করে "আছো" বা "আছেন"? এলএলএমও অনেকটা সেটাই — তবে এর ক্ষমতা লাখ গুণ বেশি।

আপনার ফোনের অটো-কমপ্লিট হয়তো আগের ৩-৫টি শব্দ দেখে। কিন্তু এলএলএম একসাথে হাজার হাজার শব্দ দেখতে পারে। ফোন শুধু পরিচিত শব্দগুলো সাজেস্ট করে, কিন্তু এলএলএম গ্রামার, তথ্য, গল্প, যুক্তি, কোড এবং হিউমার — সবকিছুর গভীর বুঝ থেকে শব্দ বেছে নেয়।

এলএলএম-এর মূল কাজ একটাই: এ পর্যন্ত যা লেখা হয়েছে তার ওপর ভিত্তি করে সবচেয়ে সম্ভাব্য পরের শব্দটি কী হবে তা আন্দাজ করা। এরপর সেই শব্দটিকে লেখার সাথে যোগ করে সে তার পরের পরের শব্দটি আন্দাজ করে। এভাবেই সে আস্ত প্যারাগ্রাফ, প্রবন্ধ বা কোড লিখে ফেলে।

একে বলা হয় অটোরেগ্রেসিভ জেনারেশন (Autoregressive Generation) — মানে সোজা কথায় "একটা একটা করে শব্দ তৈরি করা, যেখানে প্রতিটা শব্দ তার আগের শব্দগুলোর ওপর নির্ভর করে।"

কিন্তু এআই কি আসলেই সবকিছু বোঝে?

এটা নিয়ে বর্তমান বিশ্বে বিশাল বিতর্ক চলছে। এখানে মূলত দুটি দল আছে:

টিম স্টোকাস্টিক প্যারোট (Stochastic Parrot) — তারা মনে করে এলএলএম শুধু প্যাটার্ন মেলানোয় খুব ওস্তাদ। এরা আদতে কিছুই বোঝে না। অনেকটা সেই তোতাপাখির মতো যে দুনিয়ার সব কথাবার্তা শুনে ফেলেছে এবং চমৎকারভাবে সেগুলো নকল করতে পারে, কিন্তু পেছনের মানে বোঝে না।
টিম ইমারজেন্ট আন্ডারস্ট্যান্ডিং (Emergent Understanding) — তাদের মতে যখন এলএলএম কোটি কোটি প্যাটার্ন অনেক বড় স্কেলে শিখে ফেলে, তখন তার মধ্যে এক ধরণের বোধ তৈরি হয়। একটা এলএলএম গণিতের লজিক সমাধান করতে পারে, কোড লিখতে পারে আর জটিল থিওরি ব্যাখ্যা করতে পারে। এগুলো কি শুধুই প্যাটার্ন ম্যাচিং?

আসল সত্যিটা কী? সেটা নিশ্চিতভাবে কেউ জানে না। তবে আমরা এটা জানি যে এলএলএম দারুণ কাজের, সেটা সে আসলেই বুঝুক আর না-ই বুঝুক। আমাদের জন্য সেটাই আসল কথা!

আপনার প্রথম এলএলএম এপিআই কল

# Using OpenAI's API to talk to an LLM
from openai import OpenAI

client = OpenAI()  # uses OPENAI_API_KEY env variable

# The LLM predicts the next words based on your prompt
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user", "content": "Explain LLMs to a 10-year-old in 2 sentences."}
    ]
)

print(response.choices[0].message.content)
# Example output:
# "An LLM is like a super-smart autocomplete that has
#  read almost everything on the internet. When you ask
#  it a question, it guesses the best words to say next,
#  one at a time, until it forms a complete answer!"

Output

An LLM is like a super-smart autocomplete that has read almost
everything on the internet. When you ask it a question, it guesses
the best words to say next, one at a time, until it forms a
complete answer!

Note: আকার অনেক গুরুত্বপূর্ণ। GPT-2 (২০১৯) এর ১.৫ বিলিয়ন প্যারামিটার ছিল এবং এটি মোটামুটি ছোট প্যারাগ্রাফ লিখতে পারত। GPT-3 (২০২০) এর ১৭৫ বিলিয়ন প্যারামিটার ছিল এবং এটি আস্ত আর্টিকেল লিখে ফেলত। জিপিটি-৪ (GPT-4) (২০২৩) এর প্যারামিটার সংখ্যা প্রায় এক ট্রিলিয়ন বলে ধারণা করা হয় এবং এটি উকিল হওয়ার কঠিন পরীক্ষাও পাশ করে ফেলেছে। মডেল যত বড় হয় আর যত বেশি ডেটা সে দেখে, সে শুধু একটু ভালোই হয় না — বরং তার মধ্যে সম্পূর্ণ নতুন ক্ষমতা তৈরি হয়। গবেষকরা একে বলেন ইমারজেন্ট ক্যাপাবিলিটি (Emergent Capabilities), যা এআই বিশ্বের সবচেয়ে রোমাঞ্চকর বিষয়।

এলএলএম আসলে কী কী করতে পারে?

এদের কাজের তালিকা দিন দিন বাড়ছেই, তবে প্রধান কয়েকটি নিচে দেওয়া হলো:

লেখালেখি — প্রবন্ধ, ইমেইল, গল্প, কবিতা, মার্কেটিং কন্টেন্ট, টুইট
কোডিং — বিভিন্ন প্রোগ্রামিং ভাষায় কোড লেখা, ডিবাগ করা আর বুঝিয়ে দেওয়া
অনুবাদ — এক ভাষা থেকে অন্য ভাষায় অনুবাদ করা, এমনকি প্রোগ্রামিং ল্যাঙ্গুয়েজও পাল্টে দেওয়া
সারসংক্ষেপ — বড় কোনো লেখাকে ছোট করে সারসংক্ষেপ তৈরি করা
যুক্তি বা লজিক — গণিতের সমস্যা সমাধান, ধাঁধা মেলানো আর কঠিন পরীক্ষা পাশ করা
চ্যাট — মানুষের মতো কথা বলা, প্রশ্নের উত্তর দেওয়া
বিশ্লেষণ — ডেটা, রিসার্চ পেপার বা আইনি কাগজপত্র থেকে প্রয়োজনীয় তথ্য বের করা

এলএলএম কী করতে পারে না?

এআই-এর সীমাবদ্ধতা জানাও সমান গুরুত্বপূর্ণ:

তারা মিথ্যে কথা বানিয়ে বলে (Hallucinate) — মাঝেমধ্যে তারা এমনভাবে কোনো ভুল তথ্য দেয় যা শুনতে পুরোপুরি সত্যি মনে হয়। তারা ভুল রেফারেন্স বা এমন ঐতিহাসিক ঘটনার কথা বলতে পারে যা কখনো ঘটেনি।
আগের কথোপকথন ভুলে যায় — প্রতিটা চ্যাট একদম শূন্য থেকে শুরু হয় (যদি না আলাদা করে মেমোরি সিস্টেম যুক্ত করা হয়)।
সরাসরি ইন্টারনেটে যেতে পারে না — এলএলএম নিজে থেকে আজকের আবহাওয়া দেখতে পারে না বা আপনার ফাইল খুলতে পারে না (যদি না তাকে আলাদা টুল দেওয়া হয়)।
তাদের নিজস্ব কোনো মতামত বা আবেগ নেই — এলএলএম যখন বলে "আমি মনে করি," সেটা আসলে ট্রেনিং ডেটা থেকে শেখা কথা, তার নিজের কোনো চিন্তা নয়।

এলএলএম দুনিয়ার পরিচিত মুখ

বর্তমানে বিশ্বে অনেক ধরণের এলএলএম আছে। এর মধ্যে প্রধান কয়েকটি হলো:

GPT সিরিজ (ওপেনএআই (OpenAI)) — জিপিটি-৩.৫ (GPT-3.5) এবং জিপিটি-৪ (GPT-4) দিয়ে চলে চ্যাটজিপিটি (ChatGPT)। এগুলোই এখন সবচেয়ে জনপ্রিয়।
ক্লড (Claude) (অ্যানথ্রোপিক (Anthropic)) — এটি নিরাপত্তা আর মানুষের উপকারের দিকে বেশি গুরুত্ব দেয়। খুব বড় লেখা পড়ার জন্য এটি ওস্তাদ।
জেমিনি (Gemini) (গুগল (Google)) — গুগলের আধুনিক এআই যা টেক্সট, ছবি, অডিও আর ভিডিও নিয়ে কাজ করতে পারে।
লামা (LLaMA) (মেটা (Meta)) — ফেসবুকের মেটা কোম্পানির ওপেন-সোর্স মডেল যা গবেষকরা নিজের মতো করে ব্যবহার করতে পারেন।
মিস্ট্রাল (Mistral) — ইউরোপের একটি কোম্পানি যারা ওপেন-সোর্স এবং খুব শক্তিশালী এআই মডেল তৈরি করছে।

এই জগৎটা খুব দ্রুত পাল্টাচ্ছে। প্রতি কয়েক মাস অন্তর নতুন মডেল আসছে আর আমাদের কাজের ধরণ বদলে দিচ্ছে!

Challenge

ছোট কুইজ

এলএলএম টেক্সট তৈরির প্রতিটি ধাপে মূলত কী করে?

পড়া চালিয়ে যান

এলএলএম কীভাবে কাজ করে?

বিড়ালটি ___ এর ওপর বসে আছে। শত শত কোটি উদাহরণ আর গণিতের ম্যাজিকে মেশিন কীভাবে সঠিক শব্দটি খুঁজে পায়?

→

টোকেন ও কনটেক্সট উইন্ডো

শব্দগুলোকে ছোট ছোট টুকরোয় ভাগ করা হয়, আর এআই একসাথে কেবল নির্দিষ্ট কিছু টুকরোই মনে রাখতে পারে

→

চ্যাটজিপিটি (ChatGPT)

সেই চ্যাটবট যা মাত্র ৫ দিনে ইন্টারনেট তোলপাড় করে দিয়েছিল এবং এআই সম্পর্কে আমাদের ধারণাই বদলে দিয়েছিল

→

ক্লড (Claude)

শুরু থেকেই নিরাপদ, ক্ষতিকর নয় এবং সৎ হওয়ার শপথ নিয়ে তৈরি — আলাপ করুন অ্যানথ্রোপিকের ক্লড-এর সাথে

→