Kolmogorov–Smirnov Test | कोल्मोगोरोव–स्मिरनोव परीक्षण


कोल्मोगोरोव–स्मिरनोव परीक्षण (Kolmogorov–Smirnov Test)

परिचय

कोल्मोगोरोव–स्मिरनोव परीक्षण (Kolmogorov–Smirnov Test), जिसे सामान्यतः K–S Test कहा जाता है, एक अत्यंत लोकप्रिय नॉन-पैरामीट्रिक परीक्षण है जो यह निर्धारित करता है कि कोई सैंपल किसी निर्दिष्ट वितरण (जैसे Normal, Uniform आदि) से आता है या नहीं। यह परीक्षण यह भी जांच सकता है कि दो स्वतंत्र सैंपल समान वितरण से आते हैं या नहीं।

यह परीक्षण संचयी वितरण फलन (Cumulative Distribution Function – CDF) के आधार पर काम करता है और दोनों वितरणों के बीच अधिकतम अंतर (Maximum Deviation) को मापता है। यदि यह अंतर बड़ा है, तो सैंपल और सैद्धांतिक वितरण (Theoretical Distribution) में महत्वपूर्ण अंतर मौजूद होता है।

परीक्षण का उद्देश्य

  • यह जांचना कि कोई सैंपल किसी ज्ञात वितरण का पालन करता है या नहीं।
  • दो स्वतंत्र नमूनों के वितरण की समानता की जाँच।
  • डेटा मॉडलिंग और मशीन लर्निंग में वितरण मान्यता (Distributional Assumptions) की वैधता सुनिश्चित करना।

परीक्षण के प्रकार

  • 1. वन-सैंपल कोल्मोगोरोव–स्मिरनोव टेस्ट (One-Sample K–S Test): किसी एक सैंपल की तुलना किसी सैद्धांतिक वितरण (जैसे Normal या Uniform) से की जाती है।
  • 2. टू-सैंपल कोल्मोगोरोव–स्मिरनोव टेस्ट (Two-Sample K–S Test): दो सैंपलों के वितरण की तुलना की जाती है।

परिकल्पना का निर्माण

  • शून्य परिकल्पना (H₀): दोनों वितरण समान हैं या सैंपल दिए गए वितरण का पालन करता है।
  • वैकल्पिक परिकल्पना (H₁): वितरणों में महत्वपूर्ण अंतर है।

परीक्षण की प्रक्रिया (One-Sample Case)

  1. डेटा को आरोही क्रम में व्यवस्थित करें।
  2. प्रत्येक अवलोकन के लिए अनुभवजन्य वितरण फलन (Empirical CDF) की गणना करें।
  3. प्रत्येक मान के लिए सैद्धांतिक वितरण (Theoretical CDF) का मान निकालें।
  4. दोनों के बीच अंतर निकालें: D = |F₀(x) – Sₙ(x)|
  5. D का अधिकतम मान (Dmax) परीक्षण सांख्यिकी के रूप में लें।
  6. यदि Dmax > Dcritical है, तो H₀ अस्वीकार करें।

सांख्यिकीय गणना

कोल्मोगोरोव–स्मिरनोव परीक्षण सांख्यिकी (D) इस प्रकार परिभाषित की जाती है:

D = max |F₀(x) – Sₙ(x)|

जहाँ:

  • F₀(x) = सैद्धांतिक CDF
  • Sₙ(x) = अनुभवजन्य CDF

Critical value (लगभग):

Dcritical = 1.36 / √n (for α = 0.05)

उदाहरण

मान लीजिए कि हमारे पास 10 अवलोकनों का एक सैंपल है और हमें जांचना है कि क्या यह डेटा Normal Distribution का पालन करता है।

सैंपल:

12, 15, 14, 10, 13, 11, 17, 14, 16, 18
  1. डेटा को आरोही क्रम में व्यवस्थित करें:
  2. 10, 11, 12, 13, 14, 14, 15, 16, 17, 18
  3. प्रत्येक के लिए Empirical CDF निकालें: Sₙ(x) = i/n
  4. प्रत्येक मान के लिए Normal CDF से F₀(x) निकालें (Z-score के आधार पर)।
  5. D मान निकालें = |F₀(x) – Sₙ(x)|
  6. Dmax = 0.21 (मान लीजिए)
  7. n = 10 → Dcritical = 1.36/√10 = 0.43

चूंकि Dmax (0.21) < Dcritical (0.43), इसलिए H₀ स्वीकार — डेटा सामान्य वितरण का पालन करता है।

टू-सैंपल K–S टेस्ट

जब दो सैंपलों की तुलना की जाती है, तो परीक्षण सांख्यिकी इस प्रकार होती है:

D = max |Sₙ₁(x) – Sₙ₂(x)|

जहाँ Sₙ₁(x) और Sₙ₂(x) दोनो सैंपलों के Empirical CDF हैं।

डेटा साइंस में उपयोग

  • मॉडल वैलिडेशन — जांचना कि residuals Normal Distribution का पालन करते हैं या नहीं।
  • सैंपलिंग की गुणवत्ता जांचना।
  • सिमुलेशन और जनरेटिव मॉडलों की सटीकता का आकलन।
  • हिस्टोग्राम और प्रायिकता वितरण की तुलना।
  • क्लस्टरिंग एल्गोरिद्म के आउटपुट वितरण की समानता जाँचना।

लाभ

  • किसी वितरण की मान्यता आवश्यक नहीं।
  • छोटे और बड़े दोनों सैंपलों के लिए उपयुक्त।
  • संख्यात्मक और निरंतर दोनों प्रकार के डेटा पर लागू।
  • सरल गणना और व्याख्या।

सीमाएँ

  • Discrete डेटा के लिए कम प्रभावी।
  • Extreme values पर संवेदनशील।
  • केवल एक-आयामी (Univariate) डेटा के लिए।

निष्कर्ष

कोल्मोगोरोव–स्मिरनोव परीक्षण नॉन-पैरामीट्रिक सांख्यिकी में वितरण समानता का सबसे प्रभावी साधन है। डेटा साइंस में इसका उपयोग मॉडल के वितरणात्मक व्यवहार, डेटा जेनरेशन की सटीकता और रैंडमनेस की पुष्टि करने में होता है। यह परीक्षण किसी भी Distribution-based Analysis के लिए एक विश्वसनीय आधार प्रदान करता है और सांख्यिकीय अनुमान की वैधता सुनिश्चित करता है।

Related Post