Meet the AI Platformsপড়তে ১০ মিনিট লাগবে

জেমিনি (Gemini)

গুগলের মাল্টিমোডাল এআই যা একই সাথে দেখতে, শুনতে এবং চিন্তা করতে পারে
scope:মূল ধারণাdifficulty:শিক্ষানবিস

সেই কোম্পানি যারা এই 'মস্তিষ্ক' তৈরি করেছিল

একটি অবাক করা তথ্য যা অনেকেই জানেন না: আজকের আধুনিক এআই চ্যাটবটের পেছনের মূল প্রযুক্তিটি কিন্তু গুগলই আবিষ্কার করেছিল। ২০১৭ সালে গুগল রিচার্জাররা একটি গবেষণাপত্র প্রকাশ করেন যার নাম ছিল "Attention Is All You Need" — এটিই প্রথম ট্রান্সফর্মার (Transformer) আর্কিটেকচার পরিচয় করিয়ে দেয়। আজকের চ্যাটজিপিটি, ক্লড বা জেমিনি — সবাই এই একই প্রযুক্তির ওপর ভিত্তি করে তৈরি।

কিন্তু গুগল চটজলদি কোনো চ্যাটবট রিলিজ করেনি। তারা ছিল খুব সতর্ক। আর সেই সুযোগে ২০২২ সালের নভেম্বরে চ্যাটজিপিটি এসে দুনিয়া কাঁপিয়ে দিল। হঠাৎ করেই গুগল দেখল তারা নিজেদের প্রযুক্তিতেই অন্যদের চেয়ে পিছিয়ে পড়েছে!

প্রথমে গুগল তড়িঘড়ি করে বার্ড (Bard) রিলিজ করে, কিন্তু তাতে অনেক খামতি ছিল। এরপর গুগল তাদের দুই কিংবদন্তি এআই টিম — গুগল (Google) Brain এবং ডিপমাইন্ড (DeepMind)-কে এক করে ফেলে এবং তৈরি করে তাদের সবচেয়ে উচ্চাভিলাষী প্রজেক্ট: জেমিনি (Gemini)

জেমিনি কেন আলাদা: জন্ম থেকেই মাল্টিমোডাল

অধিকাংশ এআই মডেল প্রথমে শুধু টেক্সট বা লেখা দিয়ে শুরু করেছে এবং পরে ছবি বোঝার ক্ষমতা যোগ করা হয়েছে। কিন্তু জেমিনি ছিল আলাদা — এটি জন্ম থেকেই মাল্টিমোডাল (Multimodal)। অর্থাৎ ট্রেনিংয়ের প্রথম দিন থেকেই সে এই জিনিসগুলো একই সাথে বুঝতে শিখেছে:

  • টেক্সট — শব্দ দিয়ে পড়া, লেখা এবং যুক্তি দেওয়া
  • ছবি — ফটো, ডায়াগ্রাম আর চার্ট দেখা ও বোঝা
  • ভিডিও — ভিডিও ক্লিপ দেখে তার মানে বোঝা
  • অডিও — কথা, গান বা যেকোনো শব্দ শোনা ও বোঝা
  • কোড — প্রোগ্রামিং ভাষা পড়া, লেখা ও ডিবাগ করা

সহজ করে বললে: অন্য এআই মডেলগুলো এমন একজন মানুষের মতো যে প্রথমে পড়তে শিখেছে এবং পরে ছবি দেখতে শিখেছে। আর জেমিনি হলো এমন কেউ যে ছোটবেলা থেকেই পড়া, দেখা আর শোনা — ৩টি কাজ একসাথেই শিখে বড় হয়েছে। ওর পঞ্চেন্দ্রিয় ওর ব্রেনের সাথে একদম শুরু থেকেই যুক্ত।

জেমিনি পরিবার (জেমিনি (Gemini) Family)

গুগল শুধু একটি জেমিনি তৈরি করেনি। তারা আলাদা আলাদা কাজের জন্য জেমিনি পরিবারের ৪জন সদস্য বানিয়েছে:

  • জেমিনি (Gemini) Ultra — পরিবারের সবচেয়ে শক্তিশালী সদস্য। খুব কঠিন সব লজিক, উন্নত গবেষণা আর জটিল বিশ্লেষণের জন্য এটি ব্যবহার হয়। জেমিনি অ্যাডভান্সড (জেমিনি (Gemini) Advanced) এটি দিয়েই চলে।
  • জেমিনি (Gemini) Pro — মাঝের সবচেয়ে ব্যালেন্সড সদস্য। অধিকাংশ কাজের জন্য এটি যথেষ্ট বুদ্ধিমান এবং দ্রুত। গুগলের বেশিরভাগ অ্যাপে এটিই ডিফল্ট হিসেবে থাকে।
  • জেমিনি (Gemini) Flash — গতির রাজা! এটি আকারে ছোট এবং অনেক বেশি দ্রুত। যেখানে চোখের পলকে উত্তর দরকার সেখানে এটি সেরা। মোবাইলে বা দ্রুত রেসপন্স আসার অ্যাপে এটি ব্যবহৃত হয়।
  • জেমিনি (Gemini) Nano — ক্ষুদে সদস্য যা আপনার ফোনের ভেতরেই চলে। ইন্টারনেটের দরকার হয় না। ফোনের স্মার্ট রিপ্লাই বা টেক্সট সামারি করার মতো কাজগুলো এটি সরাসরি ফোনেই করে দেয়।
Note: মডেলের সাইজ কেন জরুরি: বড় মডেলগুলো বেশি বুদ্ধিমান কিন্তু সেগুলো চলে ধীরগতিতে আর খরচও বেশি। আপনি যদি জিজ্ঞেস করেন "আজকের আবহাওয়া কেমন?" তবে ফ্ল্যাশ (Flash) মডেল ই যথেষ্ট। কিন্তু আপনি যদি "৫০ পাতার একটি আইনি চুক্তি পড়ে তার ভুল বের করতে" বলেন, তবে আল্ট্রা (Ultra)-র শক্তির প্রয়োজন হবে। গুগল আপনার প্রশ্নের ধরন বুঝে অটোমেটিক্যালি সঠিক মডেলের কাছে রিকোয়েস্ট পাঠিয়ে দেয়।

সবখানেই গুগল জেমিনি

চ্যাটজিপিটি সাধারণত একটি অ্যাপের ভেতরেই সীমাবদ্ধ, কিন্তু গুগল জেমিনিকে ছড়িয়ে দিয়েছে তার সব সার্ভিসে:

  • গুগল সার্চ — লিংকের বদলে এআই এখন উত্তরগুলো সামারি করে দেয় (AI Overviews)।
  • জিমেইল — "Help me write" ফিচারের মাধ্যমে শুধু বলে দিলেই সে মেইল লিখে দেয়।
  • গুগল ডক্স — আপনার লেখা ঠিক করে দেওয়া বা নতুন কন্টেন্ট লিখে দেওয়া।
  • গুগল ফটোস — ছবির বিষয়ে আপনি তাকে প্রশ্ন করতে পারেন (যেমন- "আমার গত বছরের কক্সবাজার ভ্রমণের ছবিগুলো দাও")।
  • অ্যান্ড্রয়েড — পিক্সেল ফোনে জেমিনি ন্যানো সরাসরি ফোনে চলে।
  • গুগল ক্লাউড — ডেভেলপাররা জেমিনি এপিআই ব্যবহার করে নিজেদের অ্যাপে এআই যুক্ত করতে পারেন।

এটাই গুগলের সবচেয়ে বড় শক্তি: তাদের বিস্তৃতি। কোটি কোটি মানুষ অলরেডি গুগল ব্যবহার করে। গুগল এখন এআই-কে মানুষের দোরগোড়ায় পৌঁছে দিচ্ছে যেখানে মানুষ অলরেডি কাজ করে।

বিশাল কনটেক্সট উইন্ডো

জেমিনির একটি অন্যতম সেরা ফিচার হলো এর বিশাল কনটেক্সট উইন্ডো (Context Window) — অর্থাৎ সে একবারে কতটুকু টেক্সট মনে রাখতে পারে। জেমিনি ১.৫ প্রো মডেলটি একসাথে ১০ লাখ (১ মিলিয়ন) টোকেন প্রসেস করতে পারে। এটি প্রায় ৭ লাখ শব্দ বা ১০টি মোটাসোটা উপন্যাসের সমান!

এর মানে হলো আপনি চাইলে আস্ত একটি কোডবেস, বিশাল টেক্সটবুক বা কয়েক ঘন্টার ভিডিও জেমিনিকে দিয়ে সেই বিষয়ে যেকোনো প্রশ্ন করতে পারেন। অন্য এআই মডেলগুলো যেখানে ১-২ লাখ টোকেনে আটকে যায়, সেখানে জেমিনির এই ক্ষমতা প্রযুক্তিগতভাবে এক বিশাল অর্জন।

জেমিনি এপিআই (API) ব্যবহার করা

# Using Google's Gemini API (google-generativeai library)
import google.generativeai as genai
# Configure with your API key
genai.configure(api_key="YOUR_API_KEY")
# === Basic text generation ===
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Explain quantum computing to a 10-year-old")
print("Text response:")
print(response.text[:200])
# === Multimodal: image + text ===
import PIL.Image
model_vision = genai.GenerativeModel('gemini-pro-vision')
image = PIL.Image.open('diagram.png')
response = model_vision.generate_content(
["What does this diagram show? Explain each part.", image]
)
print("\nImage analysis:")
print(response.text[:200])
# === Chat conversation ===
chat = model.start_chat(history=[])
response = chat.send_message("What is photosynthesis?")
print("\nChat response 1:", response.text[:100])
response = chat.send_message("Now explain it simpler.")
print("Chat response 2:", response.text[:100])
# === Comparing model sizes ===
models = ['gemini-1.5-flash', 'gemini-1.5-pro']
for m in models:
model = genai.GenerativeModel(m)
# Flash is faster, Pro is smarter
print(f"\n{m}: ready for use")
Output
টেক্সট উত্তর:
কল্পনা করো সাধারণ কম্পিউটার হলো একটি লাইট সুইচের মতো — যা অন বা অফ থাকে।
একে বলে 'বিট' যা ০ অথবা ১। কিন্তু কোয়ান্টাম কম্পিউটার ব্যবহার করে 'কিউবিট' যা একই সাথে অন আর অফ দুটোই থাকতে পারে! অনেকটা ঘোরানো মুদ্রার মতো...

ছবি বিশ্লেষণ:
এই ডায়াগ্রামটি পানির চক্র (Water Cycle) দেখাচ্ছে। নিচ থেকে শুরু করলে:
১. বাষ্পীভবন — সমুদ্রের পানি তাপ পেয়ে উপরে উঠে যাচ্ছে...

চ্যাট উত্তর ১: সালোকসংশ্লেষণ হলো এমন একটি পদ্ধতি যার মাধ্যমে সবুজ উদ্ভিদ সূর্যের আলো ব্যবহার করে...
চ্যাট উত্তর ২: উদ্ভিদ সূর্যের আলো খায়! তারা আলো, পানি আর বাতাস দিয়ে খাবার বানায়...

জেমিনি বনাম অন্যান্য এআই

চ্যাটজিপিটি আর ক্লড-এর তুলনায় জেমিনি কোথায় দাঁড়িয়ে?

  • মাল্টিমোডাল ক্ষমতা — জেমিনি জন্ম থেকেই মাল্টিমোডাল, তাই ছবি বা ভিডিওর সাথে টেক্সটের সম্পর্ক সে অনেক গভীরভাবে বোঝে।
  • কনটেক্সট উইন্ডো — ১ মিলিয়ন টোকেনের দুনিয়ায় জেমিনি বর্তমানে অপ্রতিদ্বন্দ্বী। আস্ত একটা বছরের ডাটা বা বিশাল কোডবেস নিয়ে কাজ করার জন্য এটি সেরা।
  • গুগল ইকোসিস্টেম — সার্চ, জিমেইল, ড্রাইভ আর অ্যান্ড্রয়েডের সাথে এর গভীর মিলবন্ধন অন্য কারো নেই।
  • যুক্তি ও বুদ্ধি — অনেক পরীক্ষায় জেমিনি আল্ট্রা বর্তমানে জিপিটি-৪ বা ক্লড-এর সমান বা তার চেয়ে ভালো পারফর্ম করছে।
  • খরচ ও গতি — জেমিনি ফ্ল্যাশ (Flash) মডেলটি ডেভেলপারদের জন্য অনেক বেশি সস্তা এবং দ্রুত।

সত্যি বলতে কি, বর্তমানে শীর্ষ এআই মডেলগুলো (জিপিটি-৪, ক্লড, জেমিনি) সবাই অত্যন্ত শক্তিশালী। আপনার প্রয়োজন কী এবং আপনি অলরেডি কোন ইকোসিস্টেমে (যেমন- গুগল না এমএস অফিস) আছেন তার ওপর ভিত্তি করেই আসলে সেরা নির্বাচনটি করা উচিত।

Challenge

ছোট কুইজ

গুগলের গবেষকরা কোন প্রযুক্তটি আবিষ্কার করেছিলেন যা আজকের সব এলএলএম-এর ভিত্তি?

পড়া চালিয়ে যান

চ্যাটজিপিটি (ChatGPT)
সেই চ্যাটবট যা মাত্র ৫ দিনে ইন্টারনেট তোলপাড় করে দিয়েছিল এবং এআই সম্পর্কে আমাদের ধারণাই বদলে দিয়েছিল
ক্লড (Claude)
শুরু থেকেই নিরাপদ, ক্ষতিকর নয় এবং সৎ হওয়ার শপথ নিয়ে তৈরি — আলাপ করুন অ্যানথ্রোপিকের ক্লড-এর সাথে
ওপেন ওয়েট মডেল (Open Weight Models)
নিজের কম্পিউটারে আস্ত একটি 'এআই ব্রেন' ডাউনলোড করে ইন্টারনেট ছাড়াই চালান