Run Test in Non-Parametric Inference | नॉन-पैरामीट्रिक अनुमान में रन परीक्षण


रन परीक्षण (Run Test)

परिचय

रन परीक्षण (Run Test) एक महत्वपूर्ण नॉन-पैरामीट्रिक सांख्यिकीय परीक्षण है जिसका उपयोग डेटा के क्रम (Sequence) या यादृच्छिकता (Randomness) को जांचने के लिए किया जाता है। यह परीक्षण यह निर्धारित करता है कि डेटा का क्रम यादृच्छिक (Random) है या किसी पैटर्न (Pattern) का अनुसरण करता है। यह रैंडमनेस की जांच के लिए एक सरल लेकिन शक्तिशाली उपकरण है और डेटा साइंस, मशीन लर्निंग, एवं गुणवत्ता नियंत्रण (Quality Control) में व्यापक रूप से उपयोग किया जाता है।

रन का अर्थ है — एक समान प्रकार के अवलोकनों (जैसे + या –, 1 या 0, M या F) का लगातार समूह। उदाहरण के लिए यदि एक अनुक्रम इस प्रकार है:

+ + – – + – + + –
तो रन की संख्या होगी 6 (क्योंकि चिन्हों के समूह 6 बार बदले हैं)।

रन परीक्षण का उद्देश्य

  • यह जाँचना कि डेटा यादृच्छिक रूप से व्यवस्थित है या नहीं।
  • डेटा में किसी रुझान (Trend) या पैटर्न की उपस्थिति की पहचान।
  • दो श्रेणियों के बीच असंतुलन या निर्भरता का निर्धारण।

रन की परिभाषा

“रन” किसी अनुक्रम में समान प्रतीकों (+ या –) का लगातार समूह होता है। उदाहरण:

+ + – – + – + + –
इस अनुक्रम में कुल 6 रन हैं। रन की संख्या जितनी अधिक होगी, डेटा उतना यादृच्छिक होगा; और यदि रन की संख्या बहुत कम या बहुत अधिक है, तो डेटा यादृच्छिक नहीं है।

परिकल्पना का निर्माण

  • शून्य परिकल्पना (H₀): अनुक्रम यादृच्छिक है।
  • वैकल्पिक परिकल्पना (H₁): अनुक्रम यादृच्छिक नहीं है।

रन परीक्षण के प्रकार

  • 1. साइन के आधार पर रन टेस्ट (Runs Test for Signs): जब डेटा + और – के रूप में हो।
  • 2. माध्यक के चारों ओर रन टेस्ट (Runs Test about Median): जब डेटा संख्यात्मक हो और माध्यक को सीमा के रूप में लिया जाए।
  • 3. दो श्रेणी वाले डेटा पर रन टेस्ट: जैसे Male-Female, Pass-Fail, आदि।

रन परीक्षण की प्रक्रिया

  1. डेटा अनुक्रम तैयार करें (जैसे +, –, 1, 0)।
  2. रन की संख्या (R) गिनें।
  3. n₁ = पहली श्रेणी के प्रतीकों की संख्या, n₂ = दूसरी श्रेणी के प्रतीकों की संख्या।
  4. रन की अपेक्षित संख्या और विचलन निकालें:
  5. E(R) = [(2n₁n₂) / (n₁ + n₂)] + 1
    Var(R) = [(2n₁n₂)(2n₁n₂ – n₁ – n₂)] / [(n₁ + n₂)²(n₁ + n₂ – 1)]

  6. Normal Approximation का उपयोग करके Z मान निकालें:
  7. Z = (R – E(R)) / √Var(R)

  8. Z के आधार पर निर्णय लें — यदि |Z| < Zα/2 → H₀ स्वीकार। अन्यथा H₀ अस्वीकार।

उदाहरण

मान लीजिए किसी उत्पादन इकाई में 20 उत्पादों को “पास” (P) और “फेल” (F) के रूप में चिह्नित किया गया:

P P F P F F P P P F F P F F P P F P F F

यहाँ:

  • n₁ = P की संख्या = 10
  • n₂ = F की संख्या = 10
  • रन की संख्या R = 12

अब अपेक्षित रन संख्या:

E(R) = [(2×10×10)/(20)] + 1 = 11
Var(R) = [(2×10×10)(40–20)] / [(400)(19)] = 7.37

अतः Z = (12 – 11) / √7.37 = 0.37 चूंकि |Z| = 0.37 < 1.96 (α = 0.05), इसलिए H₀ स्वीकार — डेटा यादृच्छिक है।

डेटा साइंस में उपयोग

  • मॉडल के आउटपुट में पैटर्न या बायस की जांच।
  • रैंडम सैम्पलिंग की पुष्टि।
  • मशीन लर्निंग मॉडल में त्रुटि अनुक्रम की रैंडमनेस जांचना।
  • गुणवत्ता नियंत्रण (Quality Control) और नेटवर्क डेटा एनालिटिक्स में उपयोग।

लाभ

  • सरल और सहज प्रक्रिया।
  • किसी वितरण की मान्यता आवश्यक नहीं।
  • छोटे और बड़े दोनों सैंपल के लिए उपयोगी।

सीमाएँ

  • केवल दो श्रेणियों वाले डेटा के लिए उपयुक्त।
  • बहु-श्रेणी डेटा में जटिलता बढ़ती है।
  • बहुत अधिक टाई वाले डेटा पर सटीक नहीं।

निष्कर्ष

रन परीक्षण नॉन-पैरामीट्रिक सांख्यिकी में एक शक्तिशाली उपकरण है जो यह निर्धारित करता है कि डेटा यादृच्छिक है या किसी पैटर्न का अनुसरण कर रहा है। डेटा साइंस, नेटवर्क एनालिटिक्स, मशीन लर्निंग मॉडल वैलिडेशन, और क्वालिटी कंट्रोल में यह परीक्षण अत्यंत उपयोगी है। यह सुनिश्चित करता है कि डेटा निष्पक्ष, स्वतंत्र और बायस-रहित है — जिससे विश्लेषण अधिक सटीक और विश्वसनीय बनता है।

Related Post