AI Infrastructure & Toolsপড়তে ৯ মিনিট লাগবে

মাল্টিমোডাল এআই

টেক্সট, ছবি, অডিও, ভিডিও — একই এআই মডেল সব কিছু বুঝতে ও তৈরি করতে পারে
scope:প্রাথমিক ধারণাdifficulty:শিক্ষানবিস

মাল্টিমোডাল (Multimodal) মানে কী?

"মোডালিটি (Modality)" বলতে বোঝায় তথ্যের ধরন — টেক্সট (Text) একটি মোডালিটি, ছবি (Image) আরেকটি, অডিও (Audio) আরেকটি। প্রথম দিকের এআই (AI) মডেলগুলো শুধু একটি মোডালিটিতে কাজ করতো — জিপিটি-৩ (GPT-3) শুধু টেক্সট বুঝতো।

মাল্টিমোডাল এআই (Multimodal AI) হলো এমন মডেল যা একাধিক মোডালিটি — টেক্সট, ছবি, অডিও, ভিডিও — একসাথে বুঝতে ও তৈরি করতে পারে। ঠিক যেমন মানুষ একসাথে দেখে, শোনে, পড়ে এবং বলে — মাল্টিমোডাল এআই (AI)-ও তাই করতে পারে।

মোডালিটির ধরন

  • টেক্সট (Text): ভাষা বোঝা ও তৈরি করা — প্রশ্নের উত্তর, অনুবাদ, সারসংক্ষেপ।
  • ছবি (Image): ছবি দেখে বোঝা (Vision) এবং ছবি তৈরি করা (Generation)।
  • অডিও (Audio): কথা বোঝা (Speech-to-Text) এবং কথা বলা (Text-to-Speech)।
  • ভিডিও (Video): ভিডিও দেখে বোঝা এবং ভিডিও তৈরি করা।
Note: জিপিটি-৪ও (GPT-4o)-তে 'o' মানে 'Omni': ওপেনএআই (OpenAI)-এর জিপিটি-৪ও (GPT-4o) মডেলটি টেক্সট, ছবি এবং অডিও — তিনটি মোডালিটি একই মডেলে প্রসেস করে। আগে ভিন্ন ভিন্ন মোডালিটির জন্য আলাদা মডেল লাগতো — জিপিটি-৪ও (GPT-4o) সব এক করে দিয়েছে।

মাল্টিমোডাল ক্ষমতার তুলনা

  • জিপিটি-৪ও (GPT-4o) (OpenAI): টেক্সট, ছবি ও অডিও ইনপুট/আউটপুট। রিয়েল-টাইম কণ্ঠস্বর কথোপকথন। ড্যাল-ই (DALL-E) দিয়ে ছবি তৈরি।
  • ক্লড (Claude) (Anthropic): টেক্সট ও ছবি ইনপুট। PDF ও ডকুমেন্ট বিশ্লেষণে শক্তিশালী। ছবি তৈরি করে না।
  • জেমিনি (Gemini) (Google): টেক্সট, ছবি, অডিও ও ভিডিও — সবকিছু। ১ মিলিয়ন টোকেন কনটেক্সট উইন্ডো দিয়ে আস্ত ভিডিও প্রসেস করতে পারে।

ব্যবহারিক প্রয়োগ

  • ডকুমেন্ট বিশ্লেষণ: স্ক্যান করা কাগজপত্র, চার্ট, গ্রাফ থেকে তথ্য বের করা।
  • অ্যাক্সেসিবিলিটি: দৃষ্টিপ্রতিবন্ধীদের জন্য ছবি বর্ণনা, বধিরদের জন্য স্বয়ংক্রিয় সাবটাইটেল।
  • কন্টেন্ট তৈরি: একটি ব্লগ পোস্ট থেকে সচিত্র সোশ্যাল মিডিয়া পোস্ট, ভিডিও স্ক্রিপ্ট ও অডিও তৈরি।
  • শিক্ষা: ছবি দেখে গণিত সমাধান, হাতে লেখা নোট ডিজিটাইজ করা।

মাল্টিমোডাল API ব্যবহার — ছবি বিশ্লেষণ

from openai import ওপেনএআই (OpenAI)
client = ওপেনএআই (OpenAI)()
# ছবি দেখে বিশ্লেষণ করা (Vision)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "এই ছবিতে কী দেখা যাচ্ছে?"},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/photo.jpg"
}
}
]
}
]
)
print(response.choices[0].message.content)
# অডিও থেকে টেক্সট (Whisper)
audio_file = open("podcast.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="bn" # বাংলা
)
print(transcript.text)
Output
# Vision আউটপুট:
# "ছবিতে একটি সবুজ মাঠে একটি লাল বেলুন উড়ছে।
# পেছনে নীল আকাশ এবং সাদা মেঘ দেখা যাচ্ছে।"

# Whisper আউটপুট:
# "আজকের পডকাস্টে আমরা আলোচনা করবো
# কৃত্রিম বুদ্ধিমত্তার ভবিষ্যৎ নিয়ে..."
Challenge

ছোট কুইজ

মাল্টিমোডাল এআই-এর সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য কী?

পড়া চালিয়ে যান

এআই দিয়ে ছবি তৈরি
শব্দ লিখুন, ছবি পান — ডিফিউশন মডেলের জাদু
এআই ভিডিও জেনারেশন
একটি মাত্র বাক্য থেকেই তৈরি হবে সিনেমাটিক ভিডিও
এআই মিউজিক এবং অডিও
মিউজিক ট্রেনিং ছাড়াই আপনিও হতে পারেন মিউজিশিয়ান — এআই অডিও বিপ্লব
এলএলএম কীভাবে কাজ করে?
বিড়ালটি ___ এর ওপর বসে আছে। শত শত কোটি উদাহরণ আর গণিতের ম্যাজিকে মেশিন কীভাবে সঠিক শব্দটি খুঁজে পায়?