এআই দিয়ে ছবি তৈরি
স্কেটবোর্ডে চড়ে বেড়ানো এক বিড়ালের ছবি
"আমাকে সূর্যাস্তের সময় নিয়ন আলোয় ঝলমলে টোকিও শহরের রাস্তা দিয়ে স্কেটবোর্ডে চড়ে বেড়ানো একটি বিড়ালের ছবি এঁকে দাও।"
আপনি একটি বক্সে শুধু এই কথাগুলো লিখলেন এবং এন্টার চাপলেন। মাত্র ১০ সেকেন্ড পর, আপনার সামনে একটি চমৎকার ছবি ভেসে উঠল: একটি লোমশ কমলা রঙের বিড়াল বৃষ্টির ভেজা রাস্তায় স্কেটবোর্ড চালাচ্ছে, নিয়নের আলো পানিতে প্রতিফলিত হচ্ছে আর আকাশটা কমলা ও বেগুনি রঙে রাঙানো।
আপনি নিজে এটি আঁকেননি, কোনো আর্টিস্টকেও ভাড়া করেননি, এমনকি ফটোশপও খোলেননি। আপনি শুধু বর্ণনা করেছেন আপনি কী চান, আর এআই তা শূন্য থেকে তৈরি করেছে।
এআই ইমেজ জেনারেশনের যুগে আপনাকে স্বাগতম — যেখানে আপনার কল্পনা এখন সরাসরি ছবিতে রূপান্তরিত হতে পারে।
এটি আসলে কীভাবে কাজ করে: নয়েজ (Noise) থেকে ছবি
বেশিরভাগ এআই (AI) ইমেজ জেনারেটরের পেছনে যে প্রযুক্তিটি কাজ করে তাকে বলা হয় ডিফিউশন মডেল (Diffusion Model)। নামটি শুনতে কঠিন মনে হলেও এর মূল ধারণাটি বেশ চমৎকার।
এটিকে এভাবে চিন্তা করুন:
- শেখা (Training): এআই (AI) প্রথমে ইন্টারনেট থেকে কোটি কোটি ছবি দেখে। প্রতিটি ছবিতে সে অল্প অল্প করে 'নয়েজ' (Noise) বা ঝাপসা কিছু (পুরনো টিভির ঝিরঝিরে ছবির মতো) যোগ করে যতক্ষণ না ছবিটি পুরোপুরি অস্পষ্ট হয়ে যায়। এরপর সে নিজেকে বিপরীত কাজটি করতে শেখায়: অর্থাৎ একটি ঝাপসা ছবি দেখে কীভাবে তাকে আবার স্পষ্ট করা যায়।
- তৈরি করা (Generating): এআই (AI) শুরুই করে একটি সম্পূর্ণ ঝাপসা বা 'নয়েজ' (Noise) ভরা ক্যানভাস দিয়ে। এরপর সে বার বার সেই ঝাপসা ভাব দূর করতে থাকে। প্রতিটি ধাপে নতুন নতুন আকৃতি ফুটে ওঠে। বিশৃঙ্খলা থেকে বেরিয়ে আসে রং এবং ডিটেইলস (Details)। ডজনখানেক ধাপ পার হওয়ার পর একটি পরিষ্কার ছবি তৈরি হয়।
এখানেই আসল জাদু: আপনি যখন একটি টেক্সট প্রম্পট (Text Prompt) দেন, এআই (AI) তখন সেই প্রম্পট অনুযায়ী ধাপে ধাপে ছবিটিকে স্পষ্ট করে। "স্কেটবোর্ডে বিড়ালের ছবি" বললে সে ছবিটিকে বিড়ালের এবং স্কেটবোর্ডের আকৃতি দিতে থাকে। এটি অনেকটা মার্বেল পাথর কেটে মূর্তি বানানোর মতো, যেখানে আপনার শব্দগুলোই হলো ভাস্করের হাত।
এই জগতের সেরা কিছু টুল
ড্যাল-ই (DALL-E) (ওপেনএআই (OpenAI))
ড্যাল-ই (DALL-E) হলো ওপেনএআই (OpenAI)-এর তৈরি একটি ইমেজ জেনারেটর। এটি চ্যাটজিপিটির (ChatGPT) মতোই কাজ করে, তবে এটি টেক্সটের পরিবর্তে ছবি তৈরি করে।
- শক্তি: জটিল প্রম্পট বুঝতে পারা এবং ছবির ভেতরে লেখা বা টেক্সট দারুণভাবে ফুটিয়ে তোলা।
- সেরা কাজে: দ্রুত ছবি তৈরি এবং চ্যাটজিপিটি (ChatGPT)-র সাথে ইন্টিগ্রেশনের মাধ্যমে ব্যবহার।
মিডজার্নি (Midjourney)
মিডজার্নি (Midjourney) তার অত্যন্ত শৈল্পিক (Artistic) ছবির জন্য বিখ্যাত। এর ছবিগুলো দেখতে অনেকটা সিনেমার ফ্রেম বা হাতে আঁকা পেইন্টিংয়ের মতো মনে হয়।
- শক্তি: অসাধারণ ডিটেইলস এবং সিনেমাটিক লুক।
- সেরা কাজে: প্রোফাইল পিকচার, ইলাস্ট্রেশন বা সৃজনশীল প্রজেক্টের জন্য।
স্টেবল ডিফিউশন (Stable Diffusion)
এটি একটি ওপেন সোর্স (Open Source) টুল। অর্থাৎ যে কেউ এটি ডাউনলোড করে নিজের কম্পিউটারে ইন্টারনেট ছাড়াই চালাতে পারেন।
- শক্তি: ফ্রি, কাস্টমাইজযোগ্য এবং নিজের কম্পিউটারে চালানো যায় বলে প্রাইভেসি বেশি থাকে।
- সেরা কাজে: ডেভেলপার এবং যারা নিজের মতো করে এআই (AI)-কে ট্রেইন করতে চান তাদের জন্য।
ইমেজ জেনারেশনের মূল ধারণা
ভালো ছবির জন্য প্রম্পট টিপস
সুন্দর ছবি পাওয়ার জন্য আপনার প্রম্পটটি হতে হবে সুনির্দিষ্ট:
- শৈলী (Style) উল্লেখ করুন: "Oil painting," "Cyberpunk style," বা "Anime style" — এই শব্দগুলো ছবির ধরন বদলে দেয়।
- আলোর বর্ণনা দিন: "Golden hour sunlight," "Neon glow," বা "Soft studio light" — আলো ছবির মুড ঠিক করে।
- আর্টিস্টের রেফারেন্স দিন: "In the style of Van Gogh" বা "Studio Ghibli style" বললে এআই সেই বিশেষ স্টাইলটি অনুসরণ করে।
- নেগেটিভ প্রম্পট ব্যবহার করুন: আপনি ছবিতে কী কী চান না তাও বলে দিতে পারেন, যেমন: "no text, no blurry, no watermark"।
নৈতিক এবং আইনি ভাবনা
- কপিরাইট: এআই দিয়ে তৈরি ছবির মালিক কে? অনেক দেশের আইন অনুযায়ী এআই-এর তৈরি জিনিসের ওপর কোনো কপিরাইট থাকে না।
- ডিপফেক (Deepfakes): এআই দিয়ে পরিচিত মানুষের ভুয়া ছবি তৈরি করা যায়, যা ভুল তথ্য ছড়ানোর ঝুঁকি বাড়ায়।
- শিল্পীদের অধিকার: বর্তমানে অনেক কোম্পানি অপশন দিচ্ছে যাতে আর্টিস্টরা তাদের কাজ এআই-এর লার্নিং প্রসেস থেকে সরিয়ে নিতে পারেন।