AI for Creativityপড়তে ১২ মিনিট লাগবে

এআই মিউজিক এবং অডিও

মিউজিক ট্রেনিং ছাড়াই আপনিও হতে পারেন মিউজিশিয়ান — এআই অডিও বিপ্লব
scope:ব্যবহারিক এআইdifficulty:শিক্ষানবিস

মিউজিক ট্রেনিং ছাড়াই হিট গান বানানোর গল্প

২০২৩ সালের কথা। এক কিশোর, যার কোনো মিউজিক ট্রেনিং নেই, সে তার ল্যাপটপে বসে মাত্র কয়েকটি বাক্য লিখে এন্টার চাপল। ৯০ সেকেন্ড পর তার কাছে একটি পুরো গান তৈরি ছিল — যার সুর, কণ্ঠ এবং কথা সবকিছুই ছিল পেশাদার লেভেলের।

গানটি ইন্টারনেটে ছাড়ার পর তা ভাইরাল হয়ে গেল। লক্ষ লক্ষ মানুষ গানটি শুনল। নামী সব মিউজিক প্রোডিউসাররা অবাক হয়ে ভাবছিলেন — এই গানটি কীভাবে তৈরি হলো?

অন্যদিকে, একজন পডকাস্টার তার নিজের ৩ মিনিটের ভয়েস স্যাম্পল আপলোড করলেন। মুহূর্তের মধ্যে তার কণ্ঠ জাপানি, ফ্রেঞ্চ আর আরবিতে কথা বলতে শুরু করল — অথচ তিনি এই ভাষাগুলো কখনোই শেখেননি। এখন তার পডকাস্ট বিশ্বের ২০টি দেশের মানুষ শোনে।

এআই-জেনারেটেড অডিও-র দুনিয়ায় আপনাকে স্বাগতম। এটি কোনো সায়েন্স ফিকশন নয়, এটি এখনই ঘটছে।

এআই মিউজিক আসলে কীভাবে কাজ করে?

আপনি যখন লেখেন — "একটি পপ গান, হালকা বৃষ্টির কথা, জ্যাজ স্টাইল" — তখন পর্দা অন্তরালে কী ঘটে?

  • ধাপ ১: প্রম্পট বোঝা। এআই প্রথমে আপনার লেখা থেকে গানের ধরণ (Genre), মুড এবং ইনস্ট্রুমেন্টগুলো খুঁজে বের করে।
  • ধাপ ২: অডিও তৈরি। এআই ইমেজ জেনারেশনের মতোই ডিফিউশন মডেল বা ট্রান্সফরমার ব্যবহার করে অডিও ওয়েভফর্ম তৈরি করে। সে কোটি কোটি গান থেকে শিখেছে কোন সুরের পর কোন কথাটি মানাবে।
  • ধাপ ৩: কণ্ঠ যোগ করা। যদি গানের কথা থাকে, তবে একটি আলাদা মডেল সেই গানের কথার সাথে মানানসই সুর এবং গায়কের কণ্ঠ যোগ করে।
  • ধাপ ৪: মিক্সিং ও মাস্টারিং। সবশেষে এআই ভলিউম ঠিক করে এবং শব্দগুলোকে মসৃণ করে একটি ফাইনাল গান উপহার দেয়।

পুরো কাজটিতে সময় লাগে মাত্র ৩০ থেকে ৯০ সেকেন্ড। যা করতে আগে স্টুডিও, শিল্পী আর ইঞ্জিনিয়ার লাগত, তা এখন একটি টেক্সট বক্সেই সম্ভব।

Note: একটি গুরুত্বপূর্ণ তথ্য: এআই মিউজিক টুলগুলো অন্য গান 'কপি' করে না। বরং তারা গানের প্যাটার্ন শেখে। যেমন- একজন রাঁধুনি হাজার হাজার ডিশ চেখে যেমন একটি নতুন রেসিপি বের করতে পারেন, এআই-ও তেমনি গানের প্যাটার্ন শিখে নতুন সুর তৈরি করে।

এই জগতের সেরা কিছু টুল

সুনো (Suno) — টেক্সট থেকে পুরো গান

সুনো (Suno) বর্তমানে এআই মিউজিক দুনিয়ার সবচেয়ে বড় নাম। আপনি শুধু গানের ধরণ বলে দিলেই সে কথা আর সুরসহ পুরো গান বানিয়ে দেয়। এটি হিন্দি, বলিউড এমনকি বাংলা গানও দারুণভাবে বানাতে পারে।

ইলেভেনল্যাবস (ElevenLabs) — কণ্ঠস্বর নকল বা ভয়েস ক্লোনিং

ইলেভেনল্যাবস (ElevenLabs) কণ্ঠস্বর নিয়ে কাজ করার জন্য এক নম্বর টুল।

  • ভয়েস ক্লোনিং: কারো মাত্র ৩০ সেকেন্ডের অডিও থেকে তার কণ্ঠস্বর হুবহু নকল করা যায়।
  • টেক্সট-টু-স্পিচ: যেকোনো লেখাকে অতি চমৎকার এবং স্বাভাবিক মানুষের মতো কণ্ঠস্বরে রূপান্তর করা যায়।

নোটবুকএলএম (NotebookLM) — এআই পডকাস্ট

গুগলের এই টুলটি আপনার দেওয়া ফাইলগুলো পড়ে দুইজন মানুষের কথোপকথনের মতো একটি অডিও পডকাস্ট বানিয়ে দেয়। পড়াশোনার ফাঁকে নোটগুলো শুনতে এটি দুর্দান্ত।

এআই দিয়ে টেক্সট-টু-স্পিচ (পাইথন উদাহরণ)

import requests
# ElevenLabs Text-to-Speech API example
API_KEY = "your_api_key_here"
VOICE_ID = "21m00Tcm4TlvDq8ikWAM" # "Rachel" voice
url = f"https://api.elevenlabs.io/v1/text-to-speech/{VOICE_ID}"
headers = {
"xi-api-key": API_KEY,
"Content-Type": "application/json"
}
data = {
"text": "Welcome to CS Bite! Today we're learning about AI audio.",
"model_id": "eleven_monolingual_v1",
"voice_settings": {
"stability": 0.5, # Lower = more expressive
"similarity_boost": 0.8 # Higher = closer to original voice
}
}
response = requests.post(url, json=data, headers=headers)
# Save the generated audio
with open("output.mp3", "wb") as f:
f.write(response.content)
print("Audio generated! File: output.mp3")
print(f"Size: {len(response.content) / 1024:.1f} KB")
Output
Rachel_Voice এর কণ্ঠস্বরে অডিও তৈরি হচ্ছে...
কথাগুলো হলো: 'এআই এখন বাংলাতেও কথা বলতে পারে!'
আউটপুট: output.mp3

ভয়েস ক্লোনিং: আপনার কণ্ঠে অন্য ভাষা

ভয়েস ক্লোনিং হলো এআই অডিওর সবচেয়ে অদ্ভুত এবং জাদুকরী অংশ। প্রক্রিয়াটি এমন:

  • প্রথমে আপনি আপনার কণ্ঠের ৩০ সেকেন্ডের একটি পরিষ্কার স্যাম্পল দেন।
  • এআই আপনার গলার স্বর, পিচ, কথা বলার ধরণ আর অ্যাকসেন্ট বিশ্লেষণ করে একটি প্রোফাইল বানায়।
  • এরপর আপনি যা-ই লিখবেন, এআই আপনার গলার স্বরেই তা বলবে।

সবচেয়ে মজার ব্যাপার হলো, আপনি যে ভাষা জানেন না, এআই আপনার গলার স্বরে সেই ভাষাতেও নিখুঁতভাবে কথা বলিয়ে দিতে পারে। এটি দিয়ে এখন মুভি ডাবিং বা বিদেশের দর্শকদের জন্য ভিডিও বানানো অনেক সহজ হয়ে গেছে।

Note: বাস্তব প্রভাব: ২০২৪ সালে ইলেভেনল্যাবস এমন এক রোগীকে সাহায্য করেছে যিনি এএলএস (ALS) রোগের কারণে কথা বলার ক্ষমতা হারাচ্ছিলেন। তার পুরনো ভয়েস ক্লিপ থেকে তার কণ্ঠস্বর ক্লোন করা হয়েছে, যাতে তিনি ভবিষ্যতে অ্যাপের মাধ্যমে তার নিজের কণ্ঠেই কথা বলতে পারেন। প্রযুক্তির এর চেয়ে মানবিক ব্যবহার আর কী হতে পারে!

সাউন্ড ইফেক্ট তৈরি

আপনার কি একটি "জঙ্গলে বৃষ্টির শব্দে বাঘের গর্জন" দরকার? আগে এর জন্য অনেক কষ্ট করতে হতো। এখন এআই-কে বললেই সে আপনার জন্য একদম অরিজিনাল সাউন্ড ইফেক্ট বানিয়ে দেবে। গেম ডেভেলপার এবং ভিডিও এডিটরদের জন্য এটি এক আর্শীবাদ।

নৈতিকতা এবং ঝুঁকি

এআই অডিও যেমন চমৎকার, এর কিছু অন্ধকার দিকও আছে:

  • শিল্পীদের অধিকার: এআই মডেলগুলো আর্টিস্টদের গান থেকে শিখেছে, কিন্তু আর্টিস্টরা এর জন্য কোনো ক্রেডিট বা টাকা পাচ্ছেন না।
  • ভুয়া অডিও (Scams): কারো কণ্ঠ নকল করে তার আত্মীয়দের ফোন দিয়ে টাকা চাওয়ার মতো অপরাধ এখন বাড়ছে।
  • চিনবে কে আসল?: যদি এআই হুবহু মানুষের মতো গান গাইতে পারে, তবে আমরা বুঝব কী করে কোনটি আসল আর কোনটি কৃত্রিম?
Challenge

ছোট কুইজ

সুনো (Suno) এর মতো টুলগুলো গান বানাতে কোন টেকনোলজি ব্যবহার করে?

পড়া চালিয়ে যান