এআই মিউজিক এবং অডিও
মিউজিক ট্রেনিং ছাড়াই হিট গান বানানোর গল্প
২০২৩ সালের কথা। এক কিশোর, যার কোনো মিউজিক ট্রেনিং নেই, সে তার ল্যাপটপে বসে মাত্র কয়েকটি বাক্য লিখে এন্টার চাপল। ৯০ সেকেন্ড পর তার কাছে একটি পুরো গান তৈরি ছিল — যার সুর, কণ্ঠ এবং কথা সবকিছুই ছিল পেশাদার লেভেলের।
গানটি ইন্টারনেটে ছাড়ার পর তা ভাইরাল হয়ে গেল। লক্ষ লক্ষ মানুষ গানটি শুনল। নামী সব মিউজিক প্রোডিউসাররা অবাক হয়ে ভাবছিলেন — এই গানটি কীভাবে তৈরি হলো?
অন্যদিকে, একজন পডকাস্টার তার নিজের ৩ মিনিটের ভয়েস স্যাম্পল আপলোড করলেন। মুহূর্তের মধ্যে তার কণ্ঠ জাপানি, ফ্রেঞ্চ আর আরবিতে কথা বলতে শুরু করল — অথচ তিনি এই ভাষাগুলো কখনোই শেখেননি। এখন তার পডকাস্ট বিশ্বের ২০টি দেশের মানুষ শোনে।
এআই-জেনারেটেড অডিও-র দুনিয়ায় আপনাকে স্বাগতম। এটি কোনো সায়েন্স ফিকশন নয়, এটি এখনই ঘটছে।
এআই মিউজিক আসলে কীভাবে কাজ করে?
আপনি যখন লেখেন — "একটি পপ গান, হালকা বৃষ্টির কথা, জ্যাজ স্টাইল" — তখন পর্দা অন্তরালে কী ঘটে?
- ধাপ ১: প্রম্পট বোঝা। এআই প্রথমে আপনার লেখা থেকে গানের ধরণ (Genre), মুড এবং ইনস্ট্রুমেন্টগুলো খুঁজে বের করে।
- ধাপ ২: অডিও তৈরি। এআই ইমেজ জেনারেশনের মতোই ডিফিউশন মডেল বা ট্রান্সফরমার ব্যবহার করে অডিও ওয়েভফর্ম তৈরি করে। সে কোটি কোটি গান থেকে শিখেছে কোন সুরের পর কোন কথাটি মানাবে।
- ধাপ ৩: কণ্ঠ যোগ করা। যদি গানের কথা থাকে, তবে একটি আলাদা মডেল সেই গানের কথার সাথে মানানসই সুর এবং গায়কের কণ্ঠ যোগ করে।
- ধাপ ৪: মিক্সিং ও মাস্টারিং। সবশেষে এআই ভলিউম ঠিক করে এবং শব্দগুলোকে মসৃণ করে একটি ফাইনাল গান উপহার দেয়।
পুরো কাজটিতে সময় লাগে মাত্র ৩০ থেকে ৯০ সেকেন্ড। যা করতে আগে স্টুডিও, শিল্পী আর ইঞ্জিনিয়ার লাগত, তা এখন একটি টেক্সট বক্সেই সম্ভব।
এই জগতের সেরা কিছু টুল
সুনো (Suno) — টেক্সট থেকে পুরো গান
সুনো (Suno) বর্তমানে এআই মিউজিক দুনিয়ার সবচেয়ে বড় নাম। আপনি শুধু গানের ধরণ বলে দিলেই সে কথা আর সুরসহ পুরো গান বানিয়ে দেয়। এটি হিন্দি, বলিউড এমনকি বাংলা গানও দারুণভাবে বানাতে পারে।
ইলেভেনল্যাবস (ElevenLabs) — কণ্ঠস্বর নকল বা ভয়েস ক্লোনিং
ইলেভেনল্যাবস (ElevenLabs) কণ্ঠস্বর নিয়ে কাজ করার জন্য এক নম্বর টুল।
- ভয়েস ক্লোনিং: কারো মাত্র ৩০ সেকেন্ডের অডিও থেকে তার কণ্ঠস্বর হুবহু নকল করা যায়।
- টেক্সট-টু-স্পিচ: যেকোনো লেখাকে অতি চমৎকার এবং স্বাভাবিক মানুষের মতো কণ্ঠস্বরে রূপান্তর করা যায়।
নোটবুকএলএম (NotebookLM) — এআই পডকাস্ট
গুগলের এই টুলটি আপনার দেওয়া ফাইলগুলো পড়ে দুইজন মানুষের কথোপকথনের মতো একটি অডিও পডকাস্ট বানিয়ে দেয়। পড়াশোনার ফাঁকে নোটগুলো শুনতে এটি দুর্দান্ত।
এআই দিয়ে টেক্সট-টু-স্পিচ (পাইথন উদাহরণ)
ভয়েস ক্লোনিং: আপনার কণ্ঠে অন্য ভাষা
ভয়েস ক্লোনিং হলো এআই অডিওর সবচেয়ে অদ্ভুত এবং জাদুকরী অংশ। প্রক্রিয়াটি এমন:
- প্রথমে আপনি আপনার কণ্ঠের ৩০ সেকেন্ডের একটি পরিষ্কার স্যাম্পল দেন।
- এআই আপনার গলার স্বর, পিচ, কথা বলার ধরণ আর অ্যাকসেন্ট বিশ্লেষণ করে একটি প্রোফাইল বানায়।
- এরপর আপনি যা-ই লিখবেন, এআই আপনার গলার স্বরেই তা বলবে।
সবচেয়ে মজার ব্যাপার হলো, আপনি যে ভাষা জানেন না, এআই আপনার গলার স্বরে সেই ভাষাতেও নিখুঁতভাবে কথা বলিয়ে দিতে পারে। এটি দিয়ে এখন মুভি ডাবিং বা বিদেশের দর্শকদের জন্য ভিডিও বানানো অনেক সহজ হয়ে গেছে।
সাউন্ড ইফেক্ট তৈরি
আপনার কি একটি "জঙ্গলে বৃষ্টির শব্দে বাঘের গর্জন" দরকার? আগে এর জন্য অনেক কষ্ট করতে হতো। এখন এআই-কে বললেই সে আপনার জন্য একদম অরিজিনাল সাউন্ড ইফেক্ট বানিয়ে দেবে। গেম ডেভেলপার এবং ভিডিও এডিটরদের জন্য এটি এক আর্শীবাদ।
নৈতিকতা এবং ঝুঁকি
এআই অডিও যেমন চমৎকার, এর কিছু অন্ধকার দিকও আছে:
- শিল্পীদের অধিকার: এআই মডেলগুলো আর্টিস্টদের গান থেকে শিখেছে, কিন্তু আর্টিস্টরা এর জন্য কোনো ক্রেডিট বা টাকা পাচ্ছেন না।
- ভুয়া অডিও (Scams): কারো কণ্ঠ নকল করে তার আত্মীয়দের ফোন দিয়ে টাকা চাওয়ার মতো অপরাধ এখন বাড়ছে।
- চিনবে কে আসল?: যদি এআই হুবহু মানুষের মতো গান গাইতে পারে, তবে আমরা বুঝব কী করে কোনটি আসল আর কোনটি কৃত্রিম?