AI for Creativityপড়তে ১২ মিনিট লাগবে

এআই দিয়ে ছবি তৈরি

শব্দ লিখুন, ছবি পান — ডিফিউশন মডেলের জাদু
scope:ব্যবহারিক এআইdifficulty:শিক্ষানবিস

স্কেটবোর্ডে চড়ে বেড়ানো এক বিড়ালের ছবি

"আমাকে সূর্যাস্তের সময় নিয়ন আলোয় ঝলমলে টোকিও শহরের রাস্তা দিয়ে স্কেটবোর্ডে চড়ে বেড়ানো একটি বিড়ালের ছবি এঁকে দাও।"

আপনি একটি বক্সে শুধু এই কথাগুলো লিখলেন এবং এন্টার চাপলেন। মাত্র ১০ সেকেন্ড পর, আপনার সামনে একটি চমৎকার ছবি ভেসে উঠল: একটি লোমশ কমলা রঙের বিড়াল বৃষ্টির ভেজা রাস্তায় স্কেটবোর্ড চালাচ্ছে, নিয়নের আলো পানিতে প্রতিফলিত হচ্ছে আর আকাশটা কমলা ও বেগুনি রঙে রাঙানো।

আপনি নিজে এটি আঁকেননি, কোনো আর্টিস্টকেও ভাড়া করেননি, এমনকি ফটোশপও খোলেননি। আপনি শুধু বর্ণনা করেছেন আপনি কী চান, আর এআই তা শূন্য থেকে তৈরি করেছে

এআই ইমেজ জেনারেশনের যুগে আপনাকে স্বাগতম — যেখানে আপনার কল্পনা এখন সরাসরি ছবিতে রূপান্তরিত হতে পারে।

এটি আসলে কীভাবে কাজ করে: নয়েজ (Noise) থেকে ছবি

বেশিরভাগ এআই (AI) ইমেজ জেনারেটরের পেছনে যে প্রযুক্তিটি কাজ করে তাকে বলা হয় ডিফিউশন মডেল (Diffusion Model)। নামটি শুনতে কঠিন মনে হলেও এর মূল ধারণাটি বেশ চমৎকার।

এটিকে এভাবে চিন্তা করুন:

  • শেখা (Training): এআই (AI) প্রথমে ইন্টারনেট থেকে কোটি কোটি ছবি দেখে। প্রতিটি ছবিতে সে অল্প অল্প করে 'নয়েজ' (Noise) বা ঝাপসা কিছু (পুরনো টিভির ঝিরঝিরে ছবির মতো) যোগ করে যতক্ষণ না ছবিটি পুরোপুরি অস্পষ্ট হয়ে যায়। এরপর সে নিজেকে বিপরীত কাজটি করতে শেখায়: অর্থাৎ একটি ঝাপসা ছবি দেখে কীভাবে তাকে আবার স্পষ্ট করা যায়।
  • তৈরি করা (Generating): এআই (AI) শুরুই করে একটি সম্পূর্ণ ঝাপসা বা 'নয়েজ' (Noise) ভরা ক্যানভাস দিয়ে। এরপর সে বার বার সেই ঝাপসা ভাব দূর করতে থাকে। প্রতিটি ধাপে নতুন নতুন আকৃতি ফুটে ওঠে। বিশৃঙ্খলা থেকে বেরিয়ে আসে রং এবং ডিটেইলস (Details)। ডজনখানেক ধাপ পার হওয়ার পর একটি পরিষ্কার ছবি তৈরি হয়।

এখানেই আসল জাদু: আপনি যখন একটি টেক্সট প্রম্পট (Text Prompt) দেন, এআই (AI) তখন সেই প্রম্পট অনুযায়ী ধাপে ধাপে ছবিটিকে স্পষ্ট করে। "স্কেটবোর্ডে বিড়ালের ছবি" বললে সে ছবিটিকে বিড়ালের এবং স্কেটবোর্ডের আকৃতি দিতে থাকে। এটি অনেকটা মার্বেল পাথর কেটে মূর্তি বানানোর মতো, যেখানে আপনার শব্দগুলোই হলো ভাস্করের হাত।

এই জগতের সেরা কিছু টুল

ড্যাল-ই (DALL-E) (ওপেনএআই (OpenAI))

ড্যাল-ই (DALL-E) হলো ওপেনএআই (OpenAI)-এর তৈরি একটি ইমেজ জেনারেটর। এটি চ্যাটজিপিটির (ChatGPT) মতোই কাজ করে, তবে এটি টেক্সটের পরিবর্তে ছবি তৈরি করে।

  • শক্তি: জটিল প্রম্পট বুঝতে পারা এবং ছবির ভেতরে লেখা বা টেক্সট দারুণভাবে ফুটিয়ে তোলা।
  • সেরা কাজে: দ্রুত ছবি তৈরি এবং চ্যাটজিপিটি (ChatGPT)-র সাথে ইন্টিগ্রেশনের মাধ্যমে ব্যবহার।

মিডজার্নি (Midjourney)

মিডজার্নি (Midjourney) তার অত্যন্ত শৈল্পিক (Artistic) ছবির জন্য বিখ্যাত। এর ছবিগুলো দেখতে অনেকটা সিনেমার ফ্রেম বা হাতে আঁকা পেইন্টিংয়ের মতো মনে হয়।

  • শক্তি: অসাধারণ ডিটেইলস এবং সিনেমাটিক লুক।
  • সেরা কাজে: প্রোফাইল পিকচার, ইলাস্ট্রেশন বা সৃজনশীল প্রজেক্টের জন্য।

স্টেবল ডিফিউশন (Stable Diffusion)

এটি একটি ওপেন সোর্স (Open Source) টুল। অর্থাৎ যে কেউ এটি ডাউনলোড করে নিজের কম্পিউটারে ইন্টারনেট ছাড়াই চালাতে পারেন।

  • শক্তি: ফ্রি, কাস্টমাইজযোগ্য এবং নিজের কম্পিউটারে চালানো যায় বলে প্রাইভেসি বেশি থাকে।
  • সেরা কাজে: ডেভেলপার এবং যারা নিজের মতো করে এআই (AI)-কে ট্রেইন করতে চান তাদের জন্য।

ইমেজ জেনারেশনের মূল ধারণা

import random
# ===== Simplified Diffusion: Noise to Signal =====
# Real diffusion works on millions of pixels.
# This demo shows the core IDEA on a tiny "image."
def create_image():
"""Our 'image' is a simple 4x4 grid of values."""
return [
[9, 8, 2, 1],
[8, 7, 3, 2],
[2, 3, 7, 8],
[1, 2, 8, 9]
]
def add_noise(img, noise_level):
"""Add random noise to an image."""
noisy = []
for row in img:
noisy_row = []
for val in row:
noise = random.uniform(-noise_level, noise_level)
noisy_row.append(round(max(0, min(9, val + noise)), 1))
noisy.append(noisy_row)
return noisy
def denoise_step(noisy, target, strength):
"""One denoising step: move slightly toward the target."""
result = []
for i in range(len(noisy)):
row = []
for j in range(len(noisy[i])):
moved = noisy[i][j] + (target[i][j] - noisy[i][j]) * strength
row.append(round(moved, 1))
result.append(row)
return result
def display(img, label):
print(f" {label}:")
for row in img:
print(" [" + " ".join(f"{v:4.1f}" for v in row) + " ]")
random.seed(42)
original = create_image()
print("=== Diffusion Model: From Noise to Image ===\n")
display(original, "Original image (what we want to generate)")
# Forward process: destroy the image with noise
noisy = add_noise(original, 8)
print()
display(noisy, "Step 0: Pure noise (random starting point)")
# Reverse process: gradually denoise (guided by prompt)
print("\n--- Denoising steps (guided by text prompt) ---")
current = noisy
for step in range(1, 6):
strength = 0.3 # Each step removes some noise
current = denoise_step(current, original, strength)
display(current, f"Step {step}: Denoising...")
print("\nThe image emerges from noise, guided by the prompt!")
print("Real models do this with millions of pixels over 20-50 steps.")
Output
আসল ছবির ডেটা (যা আমরা চাই):
   9  5  2  0
   5  9  5  2
   2  5  9  5
   0  2  5  9

ধাপ ০: সম্পূর্ণ নয়েজ (শুরুত বিন্দু):
   4  1  8  2
   7  0  3  9
   1  6  4  5
   8  2  5  0

--- ডি-নয়েজিং প্রসেস চলছে (প্রম্পট অনুযায়ী) ---
ধাপ ১: ঝাপসা ভাব কাটছে...
ধাপ ২: আকৃতি ফুটে উঠছে...
ধাপ ৩: ডিটেইলস আসছে...

অবশেষে ছবি তৈরি!
Note: একটি শিল্প বিতর্ক: এআই দিয়ে ছবি তৈরি করা নিয়ে সৃজনশীল বিশ্বে বড় এক বিতর্ক শুরু হয়েছে। অনেক আর্টিস্টের দাবি, তাদের অনুমতি ছাড়াই এআই-কে তাদের ছবি দিয়ে ট্রেইন করা হয়েছে। আবার অনেকে মনে করেন এটি একটি নতুন মাধ্যম, যেমনটা ক্যামেরা আবিষ্কারের সময় হয়েছিল (তখনও পেইন্টাররা প্রতিবাদ করেছিলেন)। এআই ছবি এখন আমাদের জীবনের অংশ, তবে এর কপিরাইট এবং নৈতিকতা নিয়ে এখনো অনেক আলোচনা বাকি।

ভালো ছবির জন্য প্রম্পট টিপস

সুন্দর ছবি পাওয়ার জন্য আপনার প্রম্পটটি হতে হবে সুনির্দিষ্ট:

  • শৈলী (Style) উল্লেখ করুন: "Oil painting," "Cyberpunk style," বা "Anime style" — এই শব্দগুলো ছবির ধরন বদলে দেয়।
  • আলোর বর্ণনা দিন: "Golden hour sunlight," "Neon glow," বা "Soft studio light" — আলো ছবির মুড ঠিক করে।
  • আর্টিস্টের রেফারেন্স দিন: "In the style of Van Gogh" বা "Studio Ghibli style" বললে এআই সেই বিশেষ স্টাইলটি অনুসরণ করে।
  • নেগেটিভ প্রম্পট ব্যবহার করুন: আপনি ছবিতে কী কী চান না তাও বলে দিতে পারেন, যেমন: "no text, no blurry, no watermark"।

নৈতিক এবং আইনি ভাবনা

  • কপিরাইট: এআই দিয়ে তৈরি ছবির মালিক কে? অনেক দেশের আইন অনুযায়ী এআই-এর তৈরি জিনিসের ওপর কোনো কপিরাইট থাকে না।
  • ডিপফেক (Deepfakes): এআই দিয়ে পরিচিত মানুষের ভুয়া ছবি তৈরি করা যায়, যা ভুল তথ্য ছড়ানোর ঝুঁকি বাড়ায়।
  • শিল্পীদের অধিকার: বর্তমানে অনেক কোম্পানি অপশন দিচ্ছে যাতে আর্টিস্টরা তাদের কাজ এআই-এর লার্নিং প্রসেস থেকে সরিয়ে নিতে পারেন।
Challenge

ছোট কুইজ

ডিফিউশন মডেল কীভাবে ছবি তৈরি করে?

পড়া চালিয়ে যান