Fundamentalsপড়তে ১২ মিনিট লাগবে

ডেটাবেস: SQL বনাম NoSQL (Databases: SQL vs NoSQL)

আপনার ডেটার জন্য সঠিক ঘর বেছে নেওয়া

scope:বিল্ডিং ব্লক (Building Block)difficulty:বিগিনার-ইন্টারমিডিয়েট (Beginner-Intermediate)

বড় চিত্র (The Big Picture)

প্রতিটি অ্যাপ্লিকেশনেরই ডেটা সংরক্ষণের জন্য কোনো না কোনো জায়গা প্রয়োজন হয়। আপনি কোন ডেটাবেস বেছে নিচ্ছেন তার ওপর সবকিছু নির্ভর করে — আপনার অ্যাপ কতো দ্রুত চলবে, এটি কতো ভালোভাবে স্কেল করবে এবং রাত ৩টায় কিছু নষ্ট হয়ে গেলে আপনি কতটা কষ্টে পড়বেন।

ডেটাবেসের প্রধান দুটি ধরণ হলো: SQL (রিলেশনাল) ডেটাবেস এবং NoSQL (নন-রিলেশনাল) ডেটাবেস। এটিকে আপনার জিনিসপত্র গুছিয়ে রাখার মতো ভাবতে পারেন: SQL হলো একটি সম্পূর্ণ গোছানো ফাইলিং কেবিনেট যেখানে প্রতিটি ফাইলের লেবেল বা নাম দেওয়া আছে। অন্যদিকে NoSQL হলো আলাদা আলাদা বিভিন্ন স্টোরেজ সলিউশনের একটি কালেকশন — রেন্ডম আইটেম রাখার একটা বাক্স, নথিপত্র রাখার একটা তাক, যোগাযোগের তথ্যের জন্য একটা রোলোডেক্স।

এদের মধ্যে কোনোটিই একটি আরেকটির চেয়ে "সেরা" নয়। তারা প্রত্যেকেই ভিন্ন ভিন্ন সমস্যার সমাধান করে। চলুন দুটোকেই বোঝার চেষ্টা করা যাক।

▸ ডেটাবেস কী? — পারসিস্টেন্ট এবং গোছানো স্টোরেজ

SQL / রিলেশনাল ডেটাবেস (SQL / Relational Databases)

SQL ডেটাবেসগুলো (MySQL, PostgreSQL, Oracle, SQL Server) অনেকটা স্প্রেডশিটের মতো রো এবং কলাম বিশিষ্ট টেবিল (Tables)-এ ডেটা রাখে। প্রতিটি টেবিলের নিজস্ব একটি স্কিমা (Schema) থাকে যা বলে দেয় যে টেবিলটিতে কী কী কলাম থাকবে এবং তারা কোন ধরনের ডেটা ধারণ করবে।

একটি users টেবিলে কিছু কলাম থাকতে পারে: id (int), name (varchar), email (varchar), created_at (timestamp)। প্রতিটি রো (Row) ঠিক এই গঠনগত নিয়ম অনুসরণ করে। ইমেইল ছাড়া একটা ব্যবহারকারী অ্যাড করতে চান? ডেটাবেস সেটা হতে দেবে না।

টেবিলগুলোর একে অন্যের সাথে ফরেন কী-এর (foreign keys) সাহায্যে সম্পর্ক থাকে। একটি posts টেবিলে user_id কলাম থাকে, যা users টেবিলের দিকে নির্দেশ করে। এ কারণেই এগুলোকে রিলেশনাল (relational) ডেটাবেস বলা হয় — এদের মূল ক্ষমতা হলো এই সম্পর্কগুলো।

নরমালাইজেশন (Normalization) হলো ডেটা সংগঠিত করার এমন এক প্রক্রিয়া, যা ডুপ্লিকেট ডেটা কমিয়ে দেয়। ব্যবহারকারীর প্রতিটি পোস্টের সাথে তার নাম স্টোর করার বদলে, আপনি সেখানে user_id সেভ করেন এবং যখন দুটো ডাটারই দরকার পরে, তখন আপনি টেবিলগুলোকে JOIN করেন। কম ডুপ্লিকেশন = কম অসঙ্গতি।

▸ SQL — ফরেন কী দিয়ে যুক্ত স্ট্রাকচারড টেবিল

ACID প্রপার্টিজ (ACID Properties)

SQL ডেটাবেসগুলো ACID প্রপার্টির নিশ্চয়তা দেয় — এটি আপনার ডেটার আচরণ সম্পর্কে চারটি গ্যারান্টি দেয়:

অ্যাটোমিসিটি (Atomicity) — একটি ট্রানজেকশনে হয় সম্পূর্ণ কাজ হবে, না হয় কিছুই হবে কেন্দ্রীয় না। আপনি যদি আনিকার অ্যাকাউন্ট থেকে রাফির কাছে $১০০ ট্রান্সফার করেন, তবে ডেবিট এবং ক্রেডিট দুটো কাজই হবে, অথবা কিছুই হবে না। কোনো "টাকা গায়েব" টাইপ বাগ থাকতে পারে না।
কনসিস্টেন্সি (Consistency) — ডেটাবেস একটি ভ্যালিড অবস্থা থেকে আরেকটি ভ্যালিড অবস্থায় যায়। সমস্ত শর্ত (constraints, foreign keys) শক্তভাবে মানা হয়। এমন কোনো পোস্ট থাকতে পারে না যা এমন কোনো ব্যবহারকারীকে নির্দেশ করে যার অস্তিত্বই নেই।
আইসোলেশন (Isolation) — সমসাময়িক ট্রানজেকশনগুলো একে অপরকে বাধা দেয় না। যদি দুজন মানুষ একই সাথে কনসার্টের শেষ টিকিটটি কিনতে যায়, তবে কেবল একজন তা পাবে।
ডিউরেবিলিটি (Durability) — কোনো ট্রানজেকশন একবার সম্পন্ন (commit) হলে, তা চিরস্থায়ী হয়ে যায়। এক মিলি-সেকেন্ড পর সার্ভারের সংযোগ বিচ্ছিন্ন হয়ে গেলেও আপনার ডেটা নিরাপদ।

ফিন্যান্সিয়াল সিস্টেম, ই-কমার্স এবং যে কোন সিস্টেম যেখানে গতির চেয়ে তথ্যের নিশ্চয়তা বেশি গুরুত্বপূর্ণ, সেগুলোর জন্য ACID অপরিহার্য।

SQL বনাম NoSQL ডেটা মডেলিং

# === SQL approach (using SQLAlchemy-like structure) ===
# Normalized: data split across related tables

# Table: users
# | id | name    | email           |
# | 1  | Anika   | [email protected]  |

# Table: posts
# | id | user_id | content         | created_at |
# | 1  | 1       | "Hello World!"  | 2024-01-15 |

# To see a user's posts, you JOIN:
# SELECT users.name, posts.content
# FROM posts JOIN users ON posts.user_id = users.id
# WHERE users.id = 1;


# === NoSQL approach (document store like MongoDB) ===
# Denormalized: everything about a user in one document

user_document = {
    "_id": "user_1",
    "name": "Anika",
    "email": "[email protected]",
    "posts": [
        {
            "id": "post_1",
            "content": "Hello World!",
            "created_at": "2024-01-15"
        },
        {
            "id": "post_2",
            "content": "NoSQL is so flexible!",
            "created_at": "2024-01-16"
        }
    ]
}

# No JOIN needed — all data in one place
# But if you update Anika's name, you only need to do it here
# (In SQL, you'd update just one row; in NoSQL, the name
# might be duplicated in other documents too)

Output

# SQL: Normalized, requires JOINs, strong consistency
# NoSQL: Denormalized, fast reads, flexible schema

NoSQL ডেটাবেসের প্রকারভেদ (NoSQL Database Types)

NoSQL হলো সেই সব ডেটাবেস যা প্রথাগত রিলেশনাল ডেটাবেসের বাইরে। এগুলোর প্রধান চারটি ধরণ আছে:

১. কী-ভ্যালু স্টোর (Key-Value Stores) (Redis, DynamoDB, Memcached)

এটি সবচেয়ে সহজ একটি মডেল। এটি আক্ষরিক অর্থেই একটি ডিকশনারি: কী (key) ইনপুট দিন, ভ্যালু ফিয়ে পান।
দারুন দ্রুত। ক্যাশিং (caching), সেশন স্টোরেজ (session storage) বা ইউজার প্রেফারেন্সের জন্য এটি পারফেক্ট।
সীমিত খোঁজার সুবিধা — আপনি কেবল কী-এর মাধ্যমে খুঁজতে পারেন।

২. ডকুমেন্ট স্টোর (Document Stores) (MongoDB, CouchDB, Firestore)

এটি JSON-লাইক ডকুমেন্টের মতো ডেটা স্টোর করে। একেকটি ডকুমেন্টের স্ট্রাকচার ভিন্ন হতে পারে।
কন্টেন্ট ম্যানেজমেন্ট, ইউজারের প্রোফাইল, ক্যাটালগ ইত্যাদির জন্য এটি খুব দারুণ কাজ করে।
SQL-এর চেয়ে অনেক বেশি নমনীয় — কোনো স্কিমা মাইগ্রেশন ছাড়াই যেকোনো সময় এতে ফিল্ড যোগ করতে পারবেন।

৩. কলাম-ফ্যামিলি স্টোর (Column-Family Stores) (Cassandra, HBase, ScyllaDB)

রো-র পরিবর্তে কলামগুলোতে ডেটা সঞ্চয় করে। বড় বড় ডেটাসেটে অ্যানালিটিকাল প্রশ্নের (Analytical queries) জন্য এটি ভালো।
দুর্দান্ত রাইট থ্রুপুট (Write throughput)। খুব স্বতস্ফুর্তভাবে হরাইজন্টালি স্কেল করতে পারে।
টাইম-সিরিজ (Time-series) ডাটা, ইন্টারনেট অফ থিংস (IoT), ইভেন্ট লগিংয়ের জন্য ব্যবহৃত হয়।

৪. গ্রাফ ডেটাবেস (Graph Databases) (Neo4j, Amazon Neptune, ArangoDB)

নোড এবং এজগুলোর (nodes and edges) মতো ডেটা সঞ্চয় করে। পরস্পরের সাথে সম্পর্কযুক্ত ডেটার জন্য এটি খুব কাজের।
সোশ্যাল নেটওয়ার্ক (কে কাকে ফলো করে), রেকমেন্ডেশন ইঞ্জিন, ফ্রড ডিটেকশনের জন্য ব্যবহৃত হয়।
"বন্ধুদের বন্ধুদের খুঁজে বের করো"-র মতো প্রশ্নগুলো এর মাধ্যমে খুব সহজেই এবং দ্রুততার সাথে উত্তর করা সম্ভব।

▸ NoSQL — নমনীয়, স্কিমা-হীন ডকুমেন্ট

Note: এটি সবসময় মনে রাখবেন: আপনার ডেটাতে যদি অনেক বেশি সম্পর্কের ব্যাপার থাকে এবং সেগুলোর জন্য ট্রানজ্যাকশন দরকার হয়, তাহলে SQL ব্যবহার করুন। আর আপনার ডেটা যদি ফ্লেক্সিবল হয়, প্রচুর পরিমাণে স্কেলিং দরকার হয় এবং পরবর্তীতে ডেটার সামঞ্জস্য ঠিক হয়ে যাওয়ার সুযোগ থাকে, তাহলে NoSQL ব্যবহার করুন। বড় বড় সিস্টেমগুলো এই দুটোর সংমিশ্রণেই (BOTH) চলে — মূল কাজের (অর্ডার, পেমেন্ট) জন্য SQL আর অন্যসব কিছুর জন্য NoSQL (সেশন, অ্যানালিটিক্স, ক্যাশিং)।

শার্ডিং (Sharding): ডেটাগুলোকে বিভিন্ন সার্ভারে ভাগ করে দেওয়া

যখন আপনার ডেটাবেস সাইজে অনেক বড় হয়ে যায় এবং একটি সার্ভারে কুলিয়ে উঠতে পারে, তখন আপনাকে একে শার্ড (shard) করতে হয় — অর্থাৎ ডেটাগুলোকে একাধিক সার্ভারের মধ্যে ভাগ করতে হয়। প্রতিটি সার্ভার সম্পূর্ণ ডেটাবেসের কিছু অংশ (শার্ড/shard) ধারণ করে থাকে।

শার্ডিংয়ের সাধারণ পদ্ধতিগুলো হলো:

রেঞ্জ-বেসড (Range-based): A-M পর্যন্ত ইউজাররা শার্ড ১-এ, N-Z পর্যন্ত ইউজাররা শার্ড ২-এ। এটা সহজ হলেও এর একটি সমস্যা হলো এটি ডেটার পরিমাণকে অসমভাবে ভাগ (hotspots) করতে পারে।
হ্যাশ-বেসড (Hash-based): কোনো কী (Key)-কে হ্যাশ করুন এবং (যেমন ইউজার আইডি) হ্যাশ করুন এবং মোট শার্ডের সংখ্যা দিয়ে মড (mod) করুন। এটি ডেটাকে সমানভাবে ভাগ করে, তবে নির্দিষ্ট একটি রেঞ্জে খোঁজার বিষয়টি এর ফলে অত্যন্ত কঠিন হয়ে দাঁড়ায়।
জিওগ্রাফি-বেসড (Geography-based): ইউএসের ইউজাররা ইউএস শার্ডে, ইউরোপীয় ইউজাররা ইউরোপীয় শার্ডে। এটি আইনি সম্মতি (GDPR) এবং কম ল্যাটেন্সির জন্য দারুণ।

শার্ডিংয়ের কারণে সিস্টেমে নানা জটিলতাও যুক্ত হয়: আলাদা শার্ডগুলোতে কোয়েরি চালানো বেশ ব্যয়বহুল, এগুলোর ব্যালান্স রক্ষা করা বেশ কষ্টের এবং অনেক অপারেশন (যেমন একাধিক শার্ডের মধ্যে JOIN করা) প্রায় অসম্ভব হয়ে দাঁড়ায়। যে কারণে ডেটাবেস ইঞ্জিনিয়াররা যথাসম্ভব শার্ডিংয়ের বিষয়টিকে এড়ানোর চেষ্টা করেন এবং শুরুতে ভার্টিকাল স্কেলিং বা রিড রেপ্লিকার সাহায্যে বিষয়টির সমাধানের পথ খোঁজেন।

▸ শার্ডিং — একাধিক ডেটাবেসে ডেটা বিভক্ত করা

রেপ্লিকেশন (Replication)

রেপ্লিকেশন মানে আপনার ডেটার কপি একাধিক সার্ভারে সংরক্ষণ করা। এর দুটো প্রধান ধরন আছে:

লিডার-ফলোয়ার (Leader-Follower / Primary-Replica): একটি সার্ভার (লিডার) সব রাইট (Writes) হ্যান্ডেল করে। এটি এক বা একাধিক ফলোয়ার সার্ভারে ডেটা কপি করে পাঠায় আর সে সার্ভারগুলো শুধু রিড (Reads) হ্যান্ডেল করে। রিড হেভি কাজের জন্য এটি বেশ ভালো — আরও ফলোয়ার সার্ভার যুক্ত করে খুব সহজে বেশি বেশি রিড হ্যান্ডেল করা সম্ভব।

লিডার-লিডার (Leader-Leader / Multi-Master): একাধিক সার্ভার রাইট হ্যান্ডেল করতে পারে। এটি বেশ জটিল, কারণ আপনাকে রাইট কনফ্লিক্টগুলো (দুটি সার্ভার একই ডেটা একই সময়ে আপডেট করলে) সমাধান করতে হবে। যখন ডাটাকে বিভিন্ন রিজিয়নে লেখার প্রয়োজন পড়ে তখন এটি ব্যবহার করা হয়।

রেপ্লিকেশনের কিছু সুবিধা:

হাই অ্যাভেলেবিলিটি (High availability) — যদি লিডার মারা যায়, তবে একজন ফলোয়ারকে লিডারের পদে নিয়ে আসা হয়।
বেটার রিড পারফরমেন্স (Better read performance) — প্রচুর রেপ্লিকার মধ্যে রিডগুলোকে ভাগ করে দেওয়া হয়।
জিওগ্রাফিক ডিস্ট্রিবিউশন (Geographic distribution) — কম লেটেন্সির জন্য ইউজারদের কাছাকাছি রেপ্লিকা রাখা যায়।

এর ট্রেড-অফ হলো রেপ্লিকেশন ল্যাগ (replication lag)। ফলোয়ার সার্ভারগুলো হয়তো লিডারের কয়েক মিলি-সেকেন্ড (বা সেকেন্ড) পিছনে থাকতে পারে। একজন ইউজার কোনো ডেটা লিখে অন্য একটি ফলোয়ার সার্ভার থেকে রিড করার চেষ্টা করলে সে পুরনো ডেটা দেখতে পারে। ক্যাপ থিওরেম লেসনে কনসিস্টেন্সি এবং অ্যাভেলেবিলিটির এই ট্রেড-অফ নিয়ে আমরা বিস্তারিত জানবো।

▸ রেপ্লিকেশন — রিলায়াবিলিটি এবং রিড পারফরমেন্সের জন্য কপি

Key Metrics

SQL ইনডেক্সড কোয়েরি

B-tree ইনডেক্স

১-১০ ms $O(\log n)$

SQL এর ফুল টেবিল স্ক্যান

প্রোডাকশনে এড়িয়ে চলুন

১০০-১০০০০ ms $O(n)$

SQL JOIN (ইনডেক্স ব্যবহার করে)

টেবিলের আকারের ওপর নির্ভর করে

৫-৫০ ms $O(n \log m)$

Key-value GET (Redis)

মেমরির ভেতর থেকে কাজ করে

< ১ ms $O(1)$

ডকুমেন্ট রিড (MongoDB)

ইনডেক্স ব্যবহার করে

১-৫ ms $O(\log n)$

Cassandra তে Write করা

অ্যাপেন্ড অনলি, খুবই ফাস্ট

১-৫ ms $O(1)$

গ্রাফ ট্রাভার্সিং (Neo4j)

ডেটা কতটা গভার সেটার উপরে নির্ভর করে

১-৫০ ms $O(V+E)$

Note: ইন্টারভিউ টিপস: আপনাকে যখন জিজ্ঞাসা করা হয় 'আপনি কোন ডেটাবেস ব্যবহার করবেন?', তখন শুধু 'SQL' বা 'NoSQL' বলবেন না। এর পেছনে আপনার চিন্তার ব্যাখ্যা করুন: 'ডেটাগুলো যেহেতু অনেক বেশি রিলেশনাল এবং কোয়েরিও বেশ জটিল, তাই আমি PostgreSQL ব্যবহার করবো। সেশন ক্যাশ লেয়ারের জন্য আমি Redis ব্যবহার করবো কারণ এর জন্য দ্রুত ডাটা পড়া প্রয়োজন এবং এক্ষেত্রে কোনো রিলেশনশিপ দরকার হয় না।' এই ট্রেড-অফগুলো বুঝতে পারার ক্ষমতাটি বুঝতে পারলেই ইন্টারভিউয়ার সন্তুষ্ট হন।

ছোট কুইজ

কোন ACID প্রপার্টি নিশ্চিত করে যে ব্যাংক ট্রান্সফার হয় পুরোটা সম্পন্ন হবে অথবা পুরোটাই রোল-ব্যাক করবে (কিচ্ছুই সম্পন্ন হবে না)?

পড়া চালিয়ে যান

ক্যাপ থিওরেম (CAP Theorem)

আপনি সব কিছু একসাথে পাবেন না — তিনটির মধ্যে যেকোনো দুটি বেছে নিন

→

কনসিস্টেন্ট হ্যাশিং (Consistent Hashing)

সার্ভার যোগ করার অর্থ এই নয় যে সবকিছু এলোমেলো করতে হবে

→

ক্যাশিং (Caching)

প্রয়োজনীয় জিনিস কাছে রাখুন — ধীরগতির যাত্রা এড়িয়ে চলুন

→

Binary Search TreeData Structure

Insert, delete, search

→