এআই ভিডিও জেনারেশন
প্রথমে শব্দ, তারপর ছবি, আর এখন সিনেমা
প্রথমে এআই শিখল কীভাবে লিখতে হয়। আপনি একটি প্রশ্ন করলেন, সে একটি প্রবন্ধ লিখে দিল। দারুণ!
তারপর এআই শিখল কীভাবে আঁকতে হয়। আপনি একটি দৃশ্যের বর্ণনা দিলেন, সে একটি ছবি এঁকে দিল। চমৎকার!
আর এখন এআই সরাসরি সিনেমা বা ভিডিও বানাতে পারে।
আপনি লিখলেন: "ফুলের বাগানে স্লো-মোশনে ছুটে বেড়ানো একটি গোল্ডেন রিট্রিভার কুকুরছানা, সিনেমাটিক লাইটিং।" আর সাথে সাথেই তৈরি হয়ে গেল একটি ভিডিও ক্লিপ — যেখানে রোদ মাখা ঘাসের ওপর দিয়ে একটি কুকুরছানা আপনার দিকেই ছুটে আসছে। কোনো ক্যামেরা নেই, কোনো কুকুর নেই, এমনকি কোনো বাগানও নেই। শুধু কয়েকটি শব্দ থেকে তৈরি হলো গতি।
এটিই হলো এআই ভিডিও জেনারেশন। আমরা যা ভাবতেও পারিনি, তা এখন একটি বাক্যের মাধ্যমেই চোখের সামনে ফুটে উঠছে।
ভিডিও এআই কীভাবে কাজ করে: ছবি থেকে গতি
আপনি যদি এআই কীভাবে ছবি তৈরি করে (ডিফিউশন মডেল) তা বুঝে থাকেন, তবে ভিডিও জেনারেশন বোঝা আপনার জন্য সহজ হবে। একটি ভিডিও মানেই হলো অনেকগুলো ছবির একটি সিরিজ।
এখানে মূল চ্যালেঞ্জগুলো হলো:
- ভিডিও হলো ছবির সমষ্টি: প্রতি সেকেন্ডে ২৪টি হিসেবে একটি ৪ সেকেন্ডের ভিডিওতে মোট ৯৬টি ছবি থাকে। এই ৯৬টি ছবিকে একে অপরের সাথে সামঞ্জস্যপূর্ণ হতে হয়।
- টেম্পোরাল কনসিস্টেন্সি (Temporal Consistency): এটিই সবচেয়ে বড় চ্যালেঞ্জ। ১ নম্বর ফ্রেমের কুকুরছানাটিকে যেন ৯৬ নম্বর ফ্রেমেও একই রকম দেখায়, তা নিশ্চিত করতে হয়। তার পাগুলো যেন স্বাভাবিকভাবে নড়াচড়া করে এবং ব্যাকগ্রাউন্ড যেন হঠাৎ করে বদলে না যায়।
আধুনিক ভিডিও মডেলগুলো এগুলো নিশ্চিত করতে নিচের প্রযুক্তিগুলো ব্যবহার করে:
- টেম্পোরাল অ্যাটেনশন: মডেল শুধু একটি ফ্রেম নিয়ে ভাবে না। সে একসাথে অনেকগুলো ফ্রেম দেখে বুঝতে চেষ্টা করে যে আগের ফ্রেমের পর পরেরটি দেখতে কেমন হওয়া উচিত।
- মোশন মডেলিং: এআই ভিডিও দেখে শেখে যে বাস্তব পৃথিবীতে পানি কীভাবে বয়, বাতাস চুলে লাগলে কেমন হয় বা মানুষ কীভাবে হাঁটে।
- ওয়ার্ল্ড সিমুলেশন: সবচেয়ে উন্নত মডেলগুলো (যেমন- সোরা) বাস্তব পৃথিবীর ফিজিক্স বা পদার্থবিদ্যার নিয়মগুলোও মেনে চলার চেষ্টা করে।
এই জগতের সেরা কিছু মডেল
সোরা (Sora) (ওপেনএআই (OpenAI))
সোরা (Sora) ২০২৪ সালের শুরুতে পুরো পৃথিবীকে তাক লাগিয়ে দিয়েছিল। এর ডেমো ভিডিওগুলো এতটাই নিখুঁত ছিল যে মনে হচ্ছিল কোনো হলিউড স্টুডিওতে শ্যুট করা হয়েছে।
- শক্তি: ৬০ সেকেন্ড পর্যন্ত দীর্ঘ ভিডিও তৈরি করতে পারে এবং এর ফিজিক্স বা পদার্থবিদ্যার জ্ঞান অসাধারণ।
- সীমাবদ্ধতা: মাঝে মাঝে অদ্ভুত কিছু ঘটতে পারে (যেমন- কাঁচের গ্লাস থেকে পানি নিচে না পড়ে উপরে চলে যাওয়া)।
রানওয়ে (Runway)
রানওয়ে (Runway) এআই ভিডিও তৈরির অন্যতম পথিকৃৎ। প্রফেশনাল এডিটরদের কাছে এটি খুব জনপ্রিয়।
- সেরা ফিচার: মোশন ব্রাশ (Motion Brush)। এটি দিয়ে আপনি ছবির নির্দিষ্ট অংশ বেছে দিয়ে বলতে পারেন সেটি কোন দিকে এবং কত দ্রুত নড়বে।
Kling
ক্লিং (Kling) একটি চীনা এআই মডেল যা মানুষের নড়াচড়া খুব নিখুঁতভাবে ফুটিয়ে তোলার জন্য পরিচিতি পেয়েছে। এটি ২ মিনিট পর্যন্ত দীর্ঘ ভিডিও তৈরি করতে পারে।
Pika
পিকা (Pika) মূলত মজার এবং সৃজনশীল ভিডিও তৈরির জন্য পরিচিত। এর ইউজার ইন্টারফেস খুবই সহজ, তাই নতুনদের জন্য এটি সেরা।
ভিডিও জেনারেশনের মূল ধারণা
ভিডিও এআই কোন দিকে যাচ্ছে?
মাত্র কয়েক বছরের ব্যবধানে এআই ভিডিও ঝাপসা ২ সেকেন্ডের ক্লিপ থেকে সিনেমার কোয়ালিটিতে পৌঁছে গিয়েছে। ভবিষ্যতে আমরা যা দেখতে পারি:
- দীর্ঘ ভিডিও: এখন হয়তো কয়েক সেকেন্ডের ভিডিও তৈরি হচ্ছে, কিন্তু খুব শীঘ্রই আমরা পুরো একটি শর্ট ফিল্ম এআই দিয়ে বানাতে পারব।
- ইন্টারঅ্যাক্টিভ ভিডিও: আপনি ভিডিও তৈরি করে বলতে পারবেন: "এখন ক্যারেক্টারটিকে বাম দিকে ঘুরিয়ে দাও" — অনেকটা ভিডিও গেমের মতো কন্ট্রোল করা যাবে।
- শিক্ষায় ব্যবহার: ইতিহাসের বইয়ে শুধু ছবি নয়, প্রাচীন সভ্যতার এআই জেনারেটেড ভিডিও ক্লিপ থাকবে যা পড়াশোনাকে আরও আনন্দদায়ক করবে।
সামাজিক প্রভাব
- ভুল তথ্য (Misinformation): বাস্তব মানুষের ভুয়া ভিডিও বানিয়ে সমাজ বিভ্রান্ত করার ঝুঁকি বাড়ছে।
- সৃজনশীল কর্মসংস্থান: অ্যানিমেশন এবং ভিডিও এডিটিংয়ে নতুন ধরণের কাজের সুযোগ তৈরি হচ্ছে, আবার পুরনো অনেক কাজ এআই-এর দখলে চলে যাচ্ছে।