AI Infrastructure & Toolsপড়তে ৯ মিনিট লাগবে

মাল্টিমোডাল এআই

টেক্সট, ছবি, অডিও, ভিডিও — একই এআই মডেল সব কিছু বুঝতে ও তৈরি করতে পারে

scope:প্রাথমিক ধারণাdifficulty:শিক্ষানবিস

মাল্টিমোডাল (Multimodal) মানে কী?

"মোডালিটি (Modality)" বলতে বোঝায় তথ্যের ধরন — টেক্সট (Text) একটি মোডালিটি, ছবি (Image) আরেকটি, অডিও (Audio) আরেকটি। প্রথম দিকের এআই (AI) মডেলগুলো শুধু একটি মোডালিটিতে কাজ করতো — জিপিটি-৩ (GPT-3) শুধু টেক্সট বুঝতো।

মাল্টিমোডাল এআই (Multimodal AI) হলো এমন মডেল যা একাধিক মোডালিটি — টেক্সট, ছবি, অডিও, ভিডিও — একসাথে বুঝতে ও তৈরি করতে পারে। ঠিক যেমন মানুষ একসাথে দেখে, শোনে, পড়ে এবং বলে — মাল্টিমোডাল এআই (AI)-ও তাই করতে পারে।

মোডালিটির ধরন

টেক্সট (Text): ভাষা বোঝা ও তৈরি করা — প্রশ্নের উত্তর, অনুবাদ, সারসংক্ষেপ।
ছবি (Image): ছবি দেখে বোঝা (Vision) এবং ছবি তৈরি করা (Generation)।
অডিও (Audio): কথা বোঝা (Speech-to-Text) এবং কথা বলা (Text-to-Speech)।
ভিডিও (Video): ভিডিও দেখে বোঝা এবং ভিডিও তৈরি করা।

Note: জিপিটি-৪ও (GPT-4o)-তে 'o' মানে 'Omni': ওপেনএআই (OpenAI)-এর জিপিটি-৪ও (GPT-4o) মডেলটি টেক্সট, ছবি এবং অডিও — তিনটি মোডালিটি একই মডেলে প্রসেস করে। আগে ভিন্ন ভিন্ন মোডালিটির জন্য আলাদা মডেল লাগতো — জিপিটি-৪ও (GPT-4o) সব এক করে দিয়েছে।

মাল্টিমোডাল ক্ষমতার তুলনা

জিপিটি-৪ও (GPT-4o) (OpenAI): টেক্সট, ছবি ও অডিও ইনপুট/আউটপুট। রিয়েল-টাইম কণ্ঠস্বর কথোপকথন। ড্যাল-ই (DALL-E) দিয়ে ছবি তৈরি।
ক্লড (Claude) (Anthropic): টেক্সট ও ছবি ইনপুট। PDF ও ডকুমেন্ট বিশ্লেষণে শক্তিশালী। ছবি তৈরি করে না।
জেমিনি (Gemini) (Google): টেক্সট, ছবি, অডিও ও ভিডিও — সবকিছু। ১ মিলিয়ন টোকেন কনটেক্সট উইন্ডো দিয়ে আস্ত ভিডিও প্রসেস করতে পারে।

ব্যবহারিক প্রয়োগ

ডকুমেন্ট বিশ্লেষণ: স্ক্যান করা কাগজপত্র, চার্ট, গ্রাফ থেকে তথ্য বের করা।
অ্যাক্সেসিবিলিটি: দৃষ্টিপ্রতিবন্ধীদের জন্য ছবি বর্ণনা, বধিরদের জন্য স্বয়ংক্রিয় সাবটাইটেল।
কন্টেন্ট তৈরি: একটি ব্লগ পোস্ট থেকে সচিত্র সোশ্যাল মিডিয়া পোস্ট, ভিডিও স্ক্রিপ্ট ও অডিও তৈরি।
শিক্ষা: ছবি দেখে গণিত সমাধান, হাতে লেখা নোট ডিজিটাইজ করা।

মাল্টিমোডাল API ব্যবহার — ছবি বিশ্লেষণ

from openai import ওপেনএআই (OpenAI)
client = ওপেনএআই (OpenAI)()

# ছবি দেখে বিশ্লেষণ করা (Vision)
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "এই ছবিতে কী দেখা যাচ্ছে?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/photo.jpg"
                    }
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)

# অডিও থেকে টেক্সট (Whisper)
audio_file = open("podcast.mp3", "rb")
transcript = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="bn"  # বাংলা
)
print(transcript.text)

Output

# Vision আউটপুট:
# "ছবিতে একটি সবুজ মাঠে একটি লাল বেলুন উড়ছে।
# পেছনে নীল আকাশ এবং সাদা মেঘ দেখা যাচ্ছে।"

# Whisper আউটপুট:
# "আজকের পডকাস্টে আমরা আলোচনা করবো
# কৃত্রিম বুদ্ধিমত্তার ভবিষ্যৎ নিয়ে..."

Challenge

ছোট কুইজ

মাল্টিমোডাল এআই-এর সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য কী?

পড়া চালিয়ে যান

এআই দিয়ে ছবি তৈরি

শব্দ লিখুন, ছবি পান — ডিফিউশন মডেলের জাদু

→

এআই ভিডিও জেনারেশন

একটি মাত্র বাক্য থেকেই তৈরি হবে সিনেমাটিক ভিডিও

→

এআই মিউজিক এবং অডিও

মিউজিক ট্রেনিং ছাড়াই আপনিও হতে পারেন মিউজিশিয়ান — এআই অডিও বিপ্লব

→

এলএলএম কীভাবে কাজ করে?

বিড়ালটি ___ এর ওপর বসে আছে। শত শত কোটি উদাহরণ আর গণিতের ম্যাজিকে মেশিন কীভাবে সঠিক শব্দটি খুঁজে পায়?

→