জেমিনি (Gemini)
সেই কোম্পানি যারা এই 'মস্তিষ্ক' তৈরি করেছিল
একটি অবাক করা তথ্য যা অনেকেই জানেন না: আজকের আধুনিক এআই চ্যাটবটের পেছনের মূল প্রযুক্তিটি কিন্তু গুগলই আবিষ্কার করেছিল। ২০১৭ সালে গুগল রিচার্জাররা একটি গবেষণাপত্র প্রকাশ করেন যার নাম ছিল "Attention Is All You Need" — এটিই প্রথম ট্রান্সফর্মার (Transformer) আর্কিটেকচার পরিচয় করিয়ে দেয়। আজকের চ্যাটজিপিটি, ক্লড বা জেমিনি — সবাই এই একই প্রযুক্তির ওপর ভিত্তি করে তৈরি।
কিন্তু গুগল চটজলদি কোনো চ্যাটবট রিলিজ করেনি। তারা ছিল খুব সতর্ক। আর সেই সুযোগে ২০২২ সালের নভেম্বরে চ্যাটজিপিটি এসে দুনিয়া কাঁপিয়ে দিল। হঠাৎ করেই গুগল দেখল তারা নিজেদের প্রযুক্তিতেই অন্যদের চেয়ে পিছিয়ে পড়েছে!
প্রথমে গুগল তড়িঘড়ি করে বার্ড (Bard) রিলিজ করে, কিন্তু তাতে অনেক খামতি ছিল। এরপর গুগল তাদের দুই কিংবদন্তি এআই টিম — গুগল (Google) Brain এবং ডিপমাইন্ড (DeepMind)-কে এক করে ফেলে এবং তৈরি করে তাদের সবচেয়ে উচ্চাভিলাষী প্রজেক্ট: জেমিনি (Gemini)।
জেমিনি কেন আলাদা: জন্ম থেকেই মাল্টিমোডাল
অধিকাংশ এআই মডেল প্রথমে শুধু টেক্সট বা লেখা দিয়ে শুরু করেছে এবং পরে ছবি বোঝার ক্ষমতা যোগ করা হয়েছে। কিন্তু জেমিনি ছিল আলাদা — এটি জন্ম থেকেই মাল্টিমোডাল (Multimodal)। অর্থাৎ ট্রেনিংয়ের প্রথম দিন থেকেই সে এই জিনিসগুলো একই সাথে বুঝতে শিখেছে:
- টেক্সট — শব্দ দিয়ে পড়া, লেখা এবং যুক্তি দেওয়া
- ছবি — ফটো, ডায়াগ্রাম আর চার্ট দেখা ও বোঝা
- ভিডিও — ভিডিও ক্লিপ দেখে তার মানে বোঝা
- অডিও — কথা, গান বা যেকোনো শব্দ শোনা ও বোঝা
- কোড — প্রোগ্রামিং ভাষা পড়া, লেখা ও ডিবাগ করা
সহজ করে বললে: অন্য এআই মডেলগুলো এমন একজন মানুষের মতো যে প্রথমে পড়তে শিখেছে এবং পরে ছবি দেখতে শিখেছে। আর জেমিনি হলো এমন কেউ যে ছোটবেলা থেকেই পড়া, দেখা আর শোনা — ৩টি কাজ একসাথেই শিখে বড় হয়েছে। ওর পঞ্চেন্দ্রিয় ওর ব্রেনের সাথে একদম শুরু থেকেই যুক্ত।
জেমিনি পরিবার (জেমিনি (Gemini) Family)
গুগল শুধু একটি জেমিনি তৈরি করেনি। তারা আলাদা আলাদা কাজের জন্য জেমিনি পরিবারের ৪জন সদস্য বানিয়েছে:
- জেমিনি (Gemini) Ultra — পরিবারের সবচেয়ে শক্তিশালী সদস্য। খুব কঠিন সব লজিক, উন্নত গবেষণা আর জটিল বিশ্লেষণের জন্য এটি ব্যবহার হয়। জেমিনি অ্যাডভান্সড (জেমিনি (Gemini) Advanced) এটি দিয়েই চলে।
- জেমিনি (Gemini) Pro — মাঝের সবচেয়ে ব্যালেন্সড সদস্য। অধিকাংশ কাজের জন্য এটি যথেষ্ট বুদ্ধিমান এবং দ্রুত। গুগলের বেশিরভাগ অ্যাপে এটিই ডিফল্ট হিসেবে থাকে।
- জেমিনি (Gemini) Flash — গতির রাজা! এটি আকারে ছোট এবং অনেক বেশি দ্রুত। যেখানে চোখের পলকে উত্তর দরকার সেখানে এটি সেরা। মোবাইলে বা দ্রুত রেসপন্স আসার অ্যাপে এটি ব্যবহৃত হয়।
- জেমিনি (Gemini) Nano — ক্ষুদে সদস্য যা আপনার ফোনের ভেতরেই চলে। ইন্টারনেটের দরকার হয় না। ফোনের স্মার্ট রিপ্লাই বা টেক্সট সামারি করার মতো কাজগুলো এটি সরাসরি ফোনেই করে দেয়।
সবখানেই গুগল জেমিনি
চ্যাটজিপিটি সাধারণত একটি অ্যাপের ভেতরেই সীমাবদ্ধ, কিন্তু গুগল জেমিনিকে ছড়িয়ে দিয়েছে তার সব সার্ভিসে:
- গুগল সার্চ — লিংকের বদলে এআই এখন উত্তরগুলো সামারি করে দেয় (AI Overviews)।
- জিমেইল — "Help me write" ফিচারের মাধ্যমে শুধু বলে দিলেই সে মেইল লিখে দেয়।
- গুগল ডক্স — আপনার লেখা ঠিক করে দেওয়া বা নতুন কন্টেন্ট লিখে দেওয়া।
- গুগল ফটোস — ছবির বিষয়ে আপনি তাকে প্রশ্ন করতে পারেন (যেমন- "আমার গত বছরের কক্সবাজার ভ্রমণের ছবিগুলো দাও")।
- অ্যান্ড্রয়েড — পিক্সেল ফোনে জেমিনি ন্যানো সরাসরি ফোনে চলে।
- গুগল ক্লাউড — ডেভেলপাররা জেমিনি এপিআই ব্যবহার করে নিজেদের অ্যাপে এআই যুক্ত করতে পারেন।
এটাই গুগলের সবচেয়ে বড় শক্তি: তাদের বিস্তৃতি। কোটি কোটি মানুষ অলরেডি গুগল ব্যবহার করে। গুগল এখন এআই-কে মানুষের দোরগোড়ায় পৌঁছে দিচ্ছে যেখানে মানুষ অলরেডি কাজ করে।
বিশাল কনটেক্সট উইন্ডো
জেমিনির একটি অন্যতম সেরা ফিচার হলো এর বিশাল কনটেক্সট উইন্ডো (Context Window) — অর্থাৎ সে একবারে কতটুকু টেক্সট মনে রাখতে পারে। জেমিনি ১.৫ প্রো মডেলটি একসাথে ১০ লাখ (১ মিলিয়ন) টোকেন প্রসেস করতে পারে। এটি প্রায় ৭ লাখ শব্দ বা ১০টি মোটাসোটা উপন্যাসের সমান!
এর মানে হলো আপনি চাইলে আস্ত একটি কোডবেস, বিশাল টেক্সটবুক বা কয়েক ঘন্টার ভিডিও জেমিনিকে দিয়ে সেই বিষয়ে যেকোনো প্রশ্ন করতে পারেন। অন্য এআই মডেলগুলো যেখানে ১-২ লাখ টোকেনে আটকে যায়, সেখানে জেমিনির এই ক্ষমতা প্রযুক্তিগতভাবে এক বিশাল অর্জন।
জেমিনি এপিআই (API) ব্যবহার করা
জেমিনি বনাম অন্যান্য এআই
চ্যাটজিপিটি আর ক্লড-এর তুলনায় জেমিনি কোথায় দাঁড়িয়ে?
- মাল্টিমোডাল ক্ষমতা — জেমিনি জন্ম থেকেই মাল্টিমোডাল, তাই ছবি বা ভিডিওর সাথে টেক্সটের সম্পর্ক সে অনেক গভীরভাবে বোঝে।
- কনটেক্সট উইন্ডো — ১ মিলিয়ন টোকেনের দুনিয়ায় জেমিনি বর্তমানে অপ্রতিদ্বন্দ্বী। আস্ত একটা বছরের ডাটা বা বিশাল কোডবেস নিয়ে কাজ করার জন্য এটি সেরা।
- গুগল ইকোসিস্টেম — সার্চ, জিমেইল, ড্রাইভ আর অ্যান্ড্রয়েডের সাথে এর গভীর মিলবন্ধন অন্য কারো নেই।
- যুক্তি ও বুদ্ধি — অনেক পরীক্ষায় জেমিনি আল্ট্রা বর্তমানে জিপিটি-৪ বা ক্লড-এর সমান বা তার চেয়ে ভালো পারফর্ম করছে।
- খরচ ও গতি — জেমিনি ফ্ল্যাশ (Flash) মডেলটি ডেভেলপারদের জন্য অনেক বেশি সস্তা এবং দ্রুত।
সত্যি বলতে কি, বর্তমানে শীর্ষ এআই মডেলগুলো (জিপিটি-৪, ক্লড, জেমিনি) সবাই অত্যন্ত শক্তিশালী। আপনার প্রয়োজন কী এবং আপনি অলরেডি কোন ইকোসিস্টেমে (যেমন- গুগল না এমএস অফিস) আছেন তার ওপর ভিত্তি করেই আসলে সেরা নির্বাচনটি করা উচিত।
ছোট কুইজ
পড়া চালিয়ে যান