এলএলএম (LLM) কী?
বিশাল এক পাঠক
কল্পনা করুন এমন একজন মানুষের কথা যে লাইব্রেরির প্রতিটা বই পড়ে ফেলেছে। উইকিপিডিয়ার প্রতিটা আর্টিকেল, ফেসবুকের পোস্ট, বিডিনিউজ২৪-এর খবর, কবিতা, রান্নার রেসিপি আর অনলাইনে পোস্ট করা হাজার হাজার প্রেমপত্র — সব তার মুখস্থ। কোটি কোটি কোটি শব্দ!
এখন ভাবুন, এই পাঠক সবকিছু হুবহু মুখস্থ করেনি। বরং সে প্যাটার্ন বা ধরণগুলো খেয়াল করেছে। সে শিখেছে যে "এক দেশে ছিল এক" বললে পরের শব্দটা প্রায় সবসময়ই "রাজা" হয়। সে শিখেছে যে রান্নার রেসিপি সাধারণত ক্রিয়া বা কাজ দিয়ে শুরু হয়। সে এটাও বুঝেছে যে কেউ যখন "খুব খারাপ" বলে, তখন পরের কথাগুলো সাধারণত দুঃখের হয়।
সেই বিশাল পাঠকই হলো এলএলএম (LLM) — পুরো নাম লার্জ ল্যাঙ্গুয়েজ মডেল (Large Language Model)।
LLM আসলে কী বোঝায়?
চলুন একে তিন ভাগে ভাগ করি:
- লার্জ (Large) বা বিশাল — এই মডেলগুলো আকারে বিশাল। জিপিটি-৪ (GPT-4)-এর শত শত কোটি প্যারামিটার আছে (এগুলোকে নব বা নব ঘুরিয়ে টিউন করার মতো ছোট ছোট মান হিসেবে ভাবতে পারেন)। এগুলো চালানোর জন্য বিশাল বিশাল কম্পিউটারের ঘর বা সার্ভারের দরকার হয়।
- ল্যাঙ্গুয়েজ (Language) বা ভাষা — এগুলো মানুষের ভাষা নিয়ে কাজ করে: বাংলা, ইংরেজি, স্প্যানিশ, পাইথন কোড, গণিতের চিহ্ন — টেক্সট জাতীয় সবকিছুই এদের ভাষা।
- মডেল (Model) — মডেল হলো জটিল কোনো জিনিসের সহজ রূপ। যেমন একটা গ্লোব হলো পৃথিবীর মডেল। তেমনি এলএলএম হলো ভাষা কীভাবে কাজ করে তার একটি মডেল।
সহজ কথায়: এলএলএম হলো একটি বিশাল গাণিতিক মডেল যা প্রচুর পরিমাণে লেখা পড়ার মাধ্যমে মানুষের ভাষার ধরণগুলো শিখে নিয়েছে।
বিশ্বের সবচেয়ে স্মার্ট অটো-কমপ্লিট
আপনার ফোনের অটো-কমপ্লিটের কথা মনে আছে? যখন আপনি "কেমন" লেখেন আর ওপর থেকে সাজেস্ট করে "আছো" বা "আছেন"? এলএলএমও অনেকটা সেটাই — তবে এর ক্ষমতা লাখ গুণ বেশি।
আপনার ফোনের অটো-কমপ্লিট হয়তো আগের ৩-৫টি শব্দ দেখে। কিন্তু এলএলএম একসাথে হাজার হাজার শব্দ দেখতে পারে। ফোন শুধু পরিচিত শব্দগুলো সাজেস্ট করে, কিন্তু এলএলএম গ্রামার, তথ্য, গল্প, যুক্তি, কোড এবং হিউমার — সবকিছুর গভীর বুঝ থেকে শব্দ বেছে নেয়।
এলএলএম-এর মূল কাজ একটাই: এ পর্যন্ত যা লেখা হয়েছে তার ওপর ভিত্তি করে সবচেয়ে সম্ভাব্য পরের শব্দটি কী হবে তা আন্দাজ করা। এরপর সেই শব্দটিকে লেখার সাথে যোগ করে সে তার পরের পরের শব্দটি আন্দাজ করে। এভাবেই সে আস্ত প্যারাগ্রাফ, প্রবন্ধ বা কোড লিখে ফেলে।
একে বলা হয় অটোরেগ্রেসিভ জেনারেশন (Autoregressive Generation) — মানে সোজা কথায় "একটা একটা করে শব্দ তৈরি করা, যেখানে প্রতিটা শব্দ তার আগের শব্দগুলোর ওপর নির্ভর করে।"
কিন্তু এআই কি আসলেই সবকিছু বোঝে?
এটা নিয়ে বর্তমান বিশ্বে বিশাল বিতর্ক চলছে। এখানে মূলত দুটি দল আছে:
- টিম স্টোকাস্টিক প্যারোট (Stochastic Parrot) — তারা মনে করে এলএলএম শুধু প্যাটার্ন মেলানোয় খুব ওস্তাদ। এরা আদতে কিছুই বোঝে না। অনেকটা সেই তোতাপাখির মতো যে দুনিয়ার সব কথাবার্তা শুনে ফেলেছে এবং চমৎকারভাবে সেগুলো নকল করতে পারে, কিন্তু পেছনের মানে বোঝে না।
- টিম ইমারজেন্ট আন্ডারস্ট্যান্ডিং (Emergent Understanding) — তাদের মতে যখন এলএলএম কোটি কোটি প্যাটার্ন অনেক বড় স্কেলে শিখে ফেলে, তখন তার মধ্যে এক ধরণের বোধ তৈরি হয়। একটা এলএলএম গণিতের লজিক সমাধান করতে পারে, কোড লিখতে পারে আর জটিল থিওরি ব্যাখ্যা করতে পারে। এগুলো কি শুধুই প্যাটার্ন ম্যাচিং?
আসল সত্যিটা কী? সেটা নিশ্চিতভাবে কেউ জানে না। তবে আমরা এটা জানি যে এলএলএম দারুণ কাজের, সেটা সে আসলেই বুঝুক আর না-ই বুঝুক। আমাদের জন্য সেটাই আসল কথা!
আপনার প্রথম এলএলএম এপিআই কল
এলএলএম আসলে কী কী করতে পারে?
এদের কাজের তালিকা দিন দিন বাড়ছেই, তবে প্রধান কয়েকটি নিচে দেওয়া হলো:
- লেখালেখি — প্রবন্ধ, ইমেইল, গল্প, কবিতা, মার্কেটিং কন্টেন্ট, টুইট
- কোডিং — বিভিন্ন প্রোগ্রামিং ভাষায় কোড লেখা, ডিবাগ করা আর বুঝিয়ে দেওয়া
- অনুবাদ — এক ভাষা থেকে অন্য ভাষায় অনুবাদ করা, এমনকি প্রোগ্রামিং ল্যাঙ্গুয়েজও পাল্টে দেওয়া
- সারসংক্ষেপ — বড় কোনো লেখাকে ছোট করে সারসংক্ষেপ তৈরি করা
- যুক্তি বা লজিক — গণিতের সমস্যা সমাধান, ধাঁধা মেলানো আর কঠিন পরীক্ষা পাশ করা
- চ্যাট — মানুষের মতো কথা বলা, প্রশ্নের উত্তর দেওয়া
- বিশ্লেষণ — ডেটা, রিসার্চ পেপার বা আইনি কাগজপত্র থেকে প্রয়োজনীয় তথ্য বের করা
এলএলএম কী করতে পারে না?
এআই-এর সীমাবদ্ধতা জানাও সমান গুরুত্বপূর্ণ:
- তারা মিথ্যে কথা বানিয়ে বলে (Hallucinate) — মাঝেমধ্যে তারা এমনভাবে কোনো ভুল তথ্য দেয় যা শুনতে পুরোপুরি সত্যি মনে হয়। তারা ভুল রেফারেন্স বা এমন ঐতিহাসিক ঘটনার কথা বলতে পারে যা কখনো ঘটেনি।
- আগের কথোপকথন ভুলে যায় — প্রতিটা চ্যাট একদম শূন্য থেকে শুরু হয় (যদি না আলাদা করে মেমোরি সিস্টেম যুক্ত করা হয়)।
- সরাসরি ইন্টারনেটে যেতে পারে না — এলএলএম নিজে থেকে আজকের আবহাওয়া দেখতে পারে না বা আপনার ফাইল খুলতে পারে না (যদি না তাকে আলাদা টুল দেওয়া হয়)।
- তাদের নিজস্ব কোনো মতামত বা আবেগ নেই — এলএলএম যখন বলে "আমি মনে করি," সেটা আসলে ট্রেনিং ডেটা থেকে শেখা কথা, তার নিজের কোনো চিন্তা নয়।
এলএলএম দুনিয়ার পরিচিত মুখ
বর্তমানে বিশ্বে অনেক ধরণের এলএলএম আছে। এর মধ্যে প্রধান কয়েকটি হলো:
- GPT সিরিজ (ওপেনএআই (OpenAI)) — জিপিটি-৩.৫ (GPT-3.5) এবং জিপিটি-৪ (GPT-4) দিয়ে চলে চ্যাটজিপিটি (ChatGPT)। এগুলোই এখন সবচেয়ে জনপ্রিয়।
- ক্লড (Claude) (অ্যানথ্রোপিক (Anthropic)) — এটি নিরাপত্তা আর মানুষের উপকারের দিকে বেশি গুরুত্ব দেয়। খুব বড় লেখা পড়ার জন্য এটি ওস্তাদ।
- জেমিনি (Gemini) (গুগল (Google)) — গুগলের আধুনিক এআই যা টেক্সট, ছবি, অডিও আর ভিডিও নিয়ে কাজ করতে পারে।
- লামা (LLaMA) (মেটা (Meta)) — ফেসবুকের মেটা কোম্পানির ওপেন-সোর্স মডেল যা গবেষকরা নিজের মতো করে ব্যবহার করতে পারেন।
- মিস্ট্রাল (Mistral) — ইউরোপের একটি কোম্পানি যারা ওপেন-সোর্স এবং খুব শক্তিশালী এআই মডেল তৈরি করছে।
এই জগৎটা খুব দ্রুত পাল্টাচ্ছে। প্রতি কয়েক মাস অন্তর নতুন মডেল আসছে আর আমাদের কাজের ধরণ বদলে দিচ্ছে!
ছোট কুইজ
পড়া চালিয়ে যান