টেক্সট রিপ্রেজেন্টেশন (Text Representation)
শব্দেরও ঠিকানার প্রয়োজন হয় (Words Need Addresses)
কম্পিউটার মূলত সংখ্যা নিয়ে কাজ করে। এটি চোখের পলকে যোগ, গুণ এবং বিভিন্ন সংখ্যার তুলনা করতে পারে। কিন্তু কম্পিউটার কখনোই "cat" বা বিড়াল শব্দটির ওপর কোনো গাণিতিক অপারেশন চালাতে পারে না। তাহলে একটি কম্পিউটারকে আপনি ভাষা বুঝবেন কীভাবে?
এর সমাধান হলো প্রতিটি শব্দকে একটি সংখ্যায় রূপান্তর করা। আরও ভালো হয় যদি শব্দগুলোকে সংখ্যার একটি তালিকায় রূপান্তর করা যায়।
ব্যাপারটিকে একটি শহরের মতো চিন্তা করুন। প্রতিটি শব্দেরই একটি নিজস্ব ঠিকানা আছে। একই ধরনের শব্দগুলো একই রাস্তা বা পাড়ায় বসবাস করে। যেমন: "King" এবং "queen" হলো একে অপরের প্রতিবেশী। আবার "Cat" এবং "dog" একই পাড়ায় থাকে। অন্যদিকে "Pizza" এবং "democracy" শহরের দুই ভিন্ন মেরুতে থাকে।
আর এটিই হলো মূলত টেক্সট রিপ্রেজেন্টেশন (text representation) — অর্থাৎ প্রতিটি শব্দকে এমন সংখ্যায় রূপান্তর করার কৌশল যা তাদের আসল অর্থ ধরে রাখতে পারে।
সবচেয়ে সহজ উপায়: ওয়ান-হট এনকোডিং (One-Hot Encoding)
ধরা যাক, আপনার শব্দভাণ্ডারে মাত্র ৪টি শব্দ আছে: [cat, dog, fish, bird]। এবং আপনি এগুলোর প্রতিটিকে নিচের মতো করে উপস্থাপন করলেন:
- cat = [1, 0, 0, 0]
- dog = [0, 1, 0, 0]
- fish = [0, 0, 1, 0]
- bird = [0, 0, 0, 1]
এটি বুঝতে খুব সহজ হলেও শব্দের প্রকৃত অর্থ বোঝার ক্ষেত্রে এটি একেবারেই অকেজো। কারণ এর প্রতিটি শব্দই একে অপরের থেকে ঠিক সমান দূরের। যেমন: "democracy" থেকে "cat" ঠিক যতটা ভিন্ন, "dog" থেকেও সে ঠিক ততটাই আলাদা বা ভিন্ন। তাই আমাদের এর চেয়েও বেশি বুদ্ধিমান কোনো পদ্ধতি দরকার।
ব্যাগ অব ওয়ার্ডস (Bag of Words): গুণে দেখা এবং ভুলে যাওয়া
আগেরটির চেয়ে একটু উন্নত সংস্করণ হলো: কোনো ডকুমেন্টে কোন শব্দটি ঠিক কতবার আছে, তা গুনে বের করার মাধ্যমে ওই ডকুমেন্টটিকে রিপ্রেজেন্ট বা উপস্থাপন করা। যেমন: "The cat sat on the mat"-কে শব্দের সংখ্যার একটি ভেক্টরে রূপান্তর করা। এটি খুবই সহজ একটি উপায় আর বেসিক বা সাধারণ কিছু ক্লাসিফিকেশন কাজের ক্ষেত্রে এটি বেশ ভালোভাবেই কাজ করে।
কিন্তু এর একটি বড় সমস্যা হলো এটি শব্দের ক্রম বা সিকুয়েন্স মনে রাখতে পারে না। যেমন: "Dog bites man" এবং "Man bites dog"-এর অর্থ সম্পূর্ণ আলাদা হওয়া সত্ত্বেও ব্যাগ অব ওয়ার্ডস-এ দুটোর রিপ্রেজেন্টেশন একে অপরের একদম হুবহু বা আইডেন্টিক্যাল (identical) হবে।
টিএফ-আইডিএফ (TF-IDF): কখন একটি শব্দ স্পেশাল হয়ে ওঠে?
টিএফ-আইডিএফ বা TF-IDF (Term Frequency - Inverse Document Frequency) মূলত ওই ব্যাগ অব ওয়ার্ডস-এর একটি ভালো সংস্করণ। এটি "the"-এর মতো খুব সাধারণ শব্দগুলোকে কম স্কোর দেয় (কারণ এগুলো প্রায় সব জায়গাতেই ব্যবহার করা হয়)। অন্যদিকে "mitochondria"-এর মতো বিরল এবং স্বকীয় বা ডিস্টিঙ্কটিভ (distinctive) শব্দগুলোকে এটি বেশ হাই বা উচ্চ স্কোর দেয় (কারণ এগুলো কেবল নির্দিষ্ট কিছু ডকুমেন্টের জন্যই ইউনিক হয়ে থাকে)।
এটি অনেকটা বইয়ে কালার মার্ক করা বা হাইলাইট করার মতো: সাধারণ শব্দগুলো চোখে পড়ে না, কিন্তু আলাদা বা স্বতন্ত্র শব্দগুলো অনেক উজ্জ্বলভাবে দেখা যায়।
ওয়ার্ড এমবেডিংস (Word Embeddings): আসল ব্রেকথ্রু বা যুগান্তকারী ধাপ
২০১৩ সালে গুগলের (Google) একটি দল Word2Vec প্রকাশ করে, আর এর পরেই সবকিছু বদলে যায়। এই মডেলে স্পার্স (sparse) বা অর্থহীন ভেক্টরের বদলে প্রতিটি শব্দ ১০০-৩০০ সংখ্যার একটি ডেন্স ভেক্টর (dense vector) বা ঘন ভেক্টরে পরিণত হয়, এবং এই অসংখ্য ডেটা বা ডকুমেন্টের ওপর ট্রেইনিং করিয়েই একে শেখানো হয়।
আর এর পেছনের ম্যাজিক বা জাদুকরী ব্যাপারটি হলো: একই ধরনের অর্থ আছে এমন শব্দগুলো নিজেদের জন্য প্রায় একই রকমের ভেক্টর তৈরি করে। এর চেয়েও অবাক করার মতো বিষয় হলো, আপনি চাইলে এর অর্থ দিয়ে গাণিতিক হিসাব বা অ্যারিথমেটিক অপারেশন (arithmetic) করতে পারবেন:
King - Man + Woman ≈ Queen
"king" থেকে "man" বিয়োগ করে তার সাথে "woman" যোগ করলে আপনি ঠিক "queen"-এর কাছেই পৌঁছে যাবেন। এই মডেলটি নিজে থেকেই শিখে নিয়েছে যে রাজকীয়তা এবং লিঙ্গ (gender) মূলত অর্থের সম্পূর্ণ ভিন্ন দুটি ডাইমেনশন বা মাত্রা।
টেক্সট রিপ্রেজেন্টেশন: ব্যাগ অব ওয়ার্ডস থেকে টিএফ-আইডিএফ (TF-IDF)
আধুনিক টেক্সট রিপ্রেজেন্টেশন (Modern Text Representation)
আজকের দিনে টেক্সট রিপ্রেজেন্টেশন আরও অনেক দূর এগিয়ে গেছে:
- Word2Vec / GloVe — প্রতিটি শব্দের জন্য কেবল একটি নির্দিষ্ট ভেক্টর। নদীর পাড় নাকি কোনো অর্থনৈতিক ব্যাংক, সেটির মানে যাই হোক না কেন "Bank"-এর জন্য এটি একই ভেক্টরই ব্যবহার করে।
- ELMo — প্রসঙ্গের ওপর নির্ভর করে কনটেক্সট-ডিপেন্ডেন্ট (context-dependent) এমবেডিং তৈরি করে। যেমন: "river bank" এবং "bank account"-এর জন্য "Bank" আলাদা আলাদা ভেক্টর তৈরি করে নেয়।
- BERT / GPT — ট্রান্সফরমার-ভিত্তিক (transformer-based) মডেলগুলো পুরো বাক্যের জন্যই এমবেডিংস তৈরি করতে পারে, যা আগের যেকোনো উপায়ের চেয়ে অনেক ভালোভাবে প্রসঙ্গ (context), সূক্ষ্ম পার্থক্য (nuance) এবং অর্থ বুঝতে সাহায্য করে।
এখানে মূল ট্রেন্ডটি বেশ পরিষ্কার: শব্দের সংখ্যা গণনা করা থেকে শুরু করে প্রসঙ্গের ওপর নির্ভর করে আরও অর্থপূর্ণ রিপ্রেজেন্টেশন তৈরি করা পর্যন্ত এর ব্যাপ্তি এগিয়েছে। এর প্রতিটি উন্নত সংস্করণই নতুন নতুন ক্ষমতার দরজা খুলে দিয়েছে — যেমন আরও উন্নত সার্চ, দারুণ সব ট্রান্সলেশন বা অনুবাদ, অসাধারণ চ্যাটবট এবং সবশেষে বর্তমানে আমরা যেমন লার্জ ল্যাঙ্গুয়েজ মডেল বা এলএলএম (LLMs) ব্যবহার করছি, ঠিক তার মতো জিনিস।
ছোট কুইজ
পড়া চালিয়ে যান