ক্যাপ থিওরেম (CAP Theorem)
অসম্ভব ত্রিভুজ (The Impossible Triangle)
কল্পনা করুন আপনি সারা দেশে মিষ্টির দোকানের একটি চেইন চালাচ্ছেন। আপনি তিনটি জিনিস চান:
- প্রতিটি শপে সব সময় একেবারে একই মেনু থাকবে (Consistency বা ধারাবাহিকতা)
- প্রতিটি শপ সব সময় খোলা থাকবে, যাই হোক না কেন (Availability বা লভ্যতা)
- শপগুলোর মধ্যে যোগাযোগের লাইন বিচ্ছিন্ন হয়ে গেলেও শপগুলো কাজ করতে থাকবে (Partition Tolerance বা বিভাজন সহনশীলতা)
CAP থিওরেম বলে: আপনি একই সময়ে এই তিনটির মধ্যে শুধুমাত্র দুটির গ্যারান্টি দিতে পারেন।
এটি ২০০০ সালে এরিক ব্রুয়ার (Eric Brewer) দ্বারা প্রথম উপস্থাপিত হয় এবং ২০০২ সালে গিলবার্ট ও লিঞ্চ (Gilbert and Lynch) দ্বারা আনুষ্ঠানিকভাবে প্রমাণিত হয়। ডিস্ট্রিবিউটেড সিস্টেমের ক্ষেত্রে এটি অন্যতম গুরুত্বপূর্ণ একটি থিওরেম, এবং প্রায় প্রতিটি সিস্টেম ডিজাইন ইন্টারভিউতেই এটি আলোচিত হয়।
C, A, এবং P — এর ব্যাখ্যা
Consistency (C) বা ধারাবাহিকতা — প্রতিটি রিড (read) রিকোয়েস্ট সর্বসাম্প্রতিক রাইট (write) করা ডেটা পাবে। যদি Anika সার্ভার ১-এ তার প্রোফাইল ছবি আপডেট করে এবং ১ মিলিসেকেন্ড পর Rafi সার্ভার ২ থেকে রিড করে, তবে Rafi নতুন ছবিটাই দেখতে পাবে। সবাই একই সময়ে একই ডেটা দেখতে পায়।
Availability (A) বা লভ্যতা — প্রতিটি রিকোয়েস্ট একটি রেসপন্স (এরর ছাড়া) পাবে, যদিও সেখানে সর্বসাম্প্রতিক ডেটা নাও থাকতে পারে। সিস্টেমটি সর্বদা ব্যবহারযোগ্য থাকবে। কোনো রিকোয়েস্ট অপূরণীয় থাকবে না।
Partition Tolerance (P) বা বিভাজন সহনশীলতা — সার্ভারগুলোর মধ্যে নেটওয়ার্ক যোগাযোগ বিচ্ছিন্ন হলেও সিস্টেমটি কাজ চালিয়ে যায়। নোডগুলোর মধ্যে মেসেজ হারিয়ে যেতে পারে বা বিলম্বিত হতে পারে। বাস্তব জগতে, নেটওয়ার্ক পার্টিশন সব সময়ই ঘটে — ক্যাবল কাটা পড়তে পারে, সুইচ ফেইল করতে পারে, ডেটা সেন্টার কানেক্টিভিটি হারাতে পারে।
যেহেতু ডিস্ট্রিবিউটেড সিস্টেমে নেটওয়ার্ক পার্টিশন অনিবার্য, তাই আপনাকে অবশ্যই P বেছে নিতে হবে। আসল পছন্দটি হলো একটি পার্টিশনের সময় C এবং A এর মধ্যে যেকোনো একটি বেছে নেওয়া:
- CP সিস্টেম: যখন কোনো পার্টিশন ঘটে, তখন সিস্টেমটি Availability বিসর্জন দেয়। কিছু রিকোয়েস্ট ফেইল করতে পারে বা অপেক্ষায় থাকতে পারে, কিন্তু আপনি কখনই পুরানো (stale) ডেটা পাবেন না।
- AP সিস্টেম: যখন কোনো পার্টিশন ঘটে, তখন সিস্টেমটি Consistency বিসর্জন দেয়। সব রিকোয়েস্ট রেসপন্স পাবে, কিন্তু কিছু ক্ষেত্রে পুরানো ডেটা রিটার্ন হতে পারে।
প্রমাণের ধারণা (Proof Intuition)
চলুন এটিকে আরেকটু স্পষ্টভাবে বুঝি। আপনার দুটি ডেটাবেস সার্ভার রয়েছে, সার্ভার A এবং সার্ভার B, যারা একে অপরের মধ্যে ডেটা রেপ্লিকেট (replicate) করে। একটি নেটওয়ার্ক পার্টিশন তাদের মধ্যে সংযোগ বিচ্ছিন্ন করে দেয়।
একজন ক্লায়েন্ট সার্ভার A তে x = 5 রাইট করলো। এখন অন্য একজন ক্লায়েন্ট সার্ভার B থেকে x রিড করতে চায়।
বিকল্প ১ (Consistency বেছে নেওয়া): সার্ভার B জানে যে এর কাছে সর্বসাম্প্রতিক মান আছে কি না, তা সে যাচাই করতে পারবে না (কারণ এটি সার্ভার A এর সাথে যোগাযোগ করতে পারছে না)। তাই এটি রিড রিকোয়েস্ট প্রত্যাখ্যান করে — এরর রিটার্ন করে। ডেটা কনসিস্টেন্ট, কিন্তু সিস্টেমটি সার্ভার B তে রিড করার জন্য অ্যাভেইলেবল নয়।
বিকল্প ২ (Availability বেছে নেওয়া): সার্ভার B এর কাছে x এর যে মানটি রয়েছে তা রিটার্ন করে (হয়তো পুরানো মান, x = 3)। সিস্টেমটি অ্যাভেইলেবল — ক্লায়েন্ট একটি রেসপন্স পেয়েছে — কিন্তু ডেটা ইনকনসিস্টেন্ট বা অসামঞ্জস্যপূর্ণ (সার্ভার A বলে 5, সার্ভার B বলে 3)।
এখানে জাদুকরী কোনো তৃতীয় বিকল্প নেই। আপনাকে অবশ্যই একটি বেছে নিতে হবে।
CP বনাম AP সিস্টেমের আচরণ
বাস্তব জগতের উদাহরণ
CP সিস্টেম (Availability এর চেয়ে Consistency কে বেশি গুরুত্ব দেয়):
- ZooKeeper — ডিস্ট্রিবিউটেড সিস্টেমে কোরিডিনেশনের জন্য ব্যবহৃত হয়। কনসিস্টেন্ট ডেটার গ্যারান্টি দিতে না পারলে এটি সার্ভ করতে আপত্তি জানায়। ভুল তথ্য দেওয়ার চেয়ে আন-অ্যাভেইলেবল থাকাই শ্রেয়।
- HBase — একটি কনসিস্টেন্ট কলাম-ফ্যামিলি স্টোর (column-family store)। রাইটস একটি সিঙ্গেল লিডারের কাছে যায়; লিডারকে পাওয়া না গেলে রাইটস ফেইল করে।
- MongoDB (মেজরিটি রাইট কনসার্ন সহ) — মেজরিটি নোড দ্বারা রাইট স্বীকার করানোর মাধ্যমে Consistency-কে অগ্রাধিকার দেওয়ার জন্য কনফিগার করা যেতে পারে।
- ব্যাংকিং সিস্টেম — আপনার ব্যাংক ব্যালেন্স অবশ্যই সঠিক হতে হবে। সিস্টেম যদি সঠিকতার গ্যারান্টি দিতে না পারে, তবে ভুল ব্যালেন্স দেখানোর চেয়ে সাময়িকভাবে "temporarily unavailable" দেখানো ভালো।
AP সিস্টেম (Consistency এর চেয়ে Availability কে বেশি গুরুত্ব দেয়):
- Cassandra — সর্বদা রাইটস গ্রহণ করে, এমনকি পার্টিশনের সময়ও। কনসিস্টেন্ট হ্যাশিং-এর মাধ্যমে ডেটা বণ্টন করে। পরে সিঙ্ক করার জন্য এটি eventual consistency ব্যবহার করে।
- DynamoDB — অ্যামাজনের কী-ভ্যালু স্টোর, এটি অন্যতম একটি NoSQL ডেটাবেস। সর্বদা রিড/রাইট করা যায় এমনভাবে ডিজাইন করা হয়েছে। "Add to cart" যেন কখনই ফেইল না করে, এমনকি কার্টটি সাময়িকভাবে ইনকনসিস্টেন্ট হলেও।
- DNS — ইন্টারনেটের ফোনবুক। এটি পুরানো মান ক্যাশ করে রাখে এবং একসময় আপডেট করে। আংশিক পুরনো DNS রেকর্ড থাকাটা কোনো DNS রেকর্ড না থাকার চেয়ে ভালো।
- সোশ্যাল মিডিয়া ফিড — আপনার ইনস্টাগ্রাম ফিড ৫ সেকেন্ড পিছিয়ে থাকলে কেউ খুব একটা লক্ষ্য করবে না। তবে ইনস্টাগ্রাম ডাউন থাকলে সবাই লক্ষ্য করবে।
ইভেনচুয়াল কনসিস্টেন্সি (Eventual Consistency)
অনেক AP সিস্টেম আপস হিসেবে ইভেনচুয়াল কনসিস্টেন্সি ব্যবহার করে। এর লক্ষ্য হলো: পার্টিশন সেরে যাওয়ার পর, সব নোড একসময় একই ডেটাতে একত্রিত হবে। এখানে অসামঞ্জস্যতার একটি উইন্ডো বা গ্যাপ থাকতে পারে, তবে এটি অস্থায়ী।
বাস্তবে এটি কীভাবে কাজ করে?
- রিড রিপেয়ার (Read repair): যখন কোনো রিড রিকোয়েস্ট রেপ্লিকাগুলোর মধ্যে অসামঞ্জস্যতা শনাক্ত করে, তখন এটি ব্যাকগ্রাউন্ডে রেপ্লিকাগুলোর মধ্যে সিংকনোনাইজেশন আপডেট ট্রিগার করে।
- অ্যান্টি-এনট্রপি (মার্কল ট্রি) (Anti-entropy using Merkle trees): নোডগুলো হ্যাশ গাছের মাধমে তাদের ডেটা নিয়মিত তুলনা করে এবং পার্থক্যগুলো বিনিময় করে নেয়।
- কনফ্লিক্ট রেজোলিউশন (Conflict resolution): যখন দুটি নোডে সাংঘর্ষিক রাইট (write) থাকে, তখন সিস্টেম তাদের সমাধান করে। লাস্ট-রাইট-উইনস (LWW) হলো সবচেয়ে সহজ কৌশল। ভেক্টর ক্লক বা CRDT হলো আরও উন্নত পদ্ধতি।
ইভেনচুয়াল কনসিস্টেন্সির ক্ষেত্রে মূল প্রশ্ন হলো: এই "ইভেনচুয়াল" বা চূড়ান্ত পর্যায়টা বাস্তবে কতটা সময় নেয়? বাস্তবে এটি মিলিসেকেন্ড থেকে কয়েক সেকেন্ড পর্যন্ত সময় নিতে পারে। তবে খারাপ পার্টিশনের সময় এটি কয়েক মিনিট বা পরীক্ষামূলক দীর্ঘ সময় নিতে পারে।
CAP-এর বাইরে: PACELC থিওরেম
CAP শুধুমাত্র পার্টিশন চলাকালীন আচরণ বর্ণনা করে। কিন্তু স্বাভাবিক অবস্থায় কী হয়? ঠিক এখানেই PACELC (উচ্চারণ "পাস-এলক") এর ভূমিকা আসে।
PACELC বলে: যদি কোনো পার্টিশন (P) থাকে, তবে Availability (A) এবং Consistency (C) এর মধ্যে যেকোনো একটি বেছে নিন। অন্যথায় (E), সিস্টেমটি যখন স্বাভাবিকভাবে চলছে, তখন Latency (L) এবং Consistency (C) এর মধ্যে একটি বেছে নিন।
- PA/EL — পার্টিশন চলাকালীন: Availability বেছে নিন। স্বাভাবিক অবস্থায়: লো-ল্যাটেনসি বেছে নিন। উদাহরণ: Cassandra, DynamoDB। এগুলো ইভেনচুয়াল কনসিস্টেন্সি সহকারে দ্রুত এবং সর্বদা ব্যবহারযোগ্য।
- PC/EC — পার্টিশন চলাকালীন: Consistency বেছে নিন। স্বাভাবিক অবস্থায়: তবুও Consistency বেছে নিন (এমনকি ল্যাটেনসির মূল্যে হলেও)। উদাহরণ: গতানুগতিক RDBMS যেমন PostgreSQL, ZooKeeper।
- PA/EC — পার্টিশন চলাকালীন: Availability বেছে নিন। স্বাভাবিক অবস্থায়: Consistency বেছে নিন। উদাহরণ: MongoDB (ডিফল্ট কনফিগারেশন)। এটি একটি সাধারণ এবং বাস্তবসম্মত ট্রেড-অফ।
PACELC সিস্টেমটি ভালো এবং খারাপ দুই সময়ে কীরকম আচরণ করে তার একটি সম্পূর্ণ চিত্র দেয়।
Key Metrics
ছোট কুইজ
পড়া চালিয়ে যান