Chi-Square Test in Data Analytics | डेटा एनालिटिक्स में χ² परीक्षण


Chi-Square Test in Data Analytics | डेटा एनालिटिक्स में χ² परीक्षण

डेटा एनालिटिक्स में Chi-Square Test (χ² Test) एक अत्यंत महत्वपूर्ण सांख्यिकीय तकनीक है जो श्रेणीगत (categorical) डेटा के बीच संबंध की जांच करने के लिए उपयोग की जाती है। यह यह निर्धारित करने में मदद करता है कि दो variables के बीच कोई सांख्यिकीय रूप से महत्वपूर्ण संबंध है या वे एक-दूसरे से स्वतंत्र हैं।

1️⃣ Chi-Square Test क्या है?

Chi-Square Test एक non-parametric सांख्यिकीय परीक्षण है जो यह मापता है कि किसी observed frequency और expected frequency के बीच कितना अंतर है।

यदि यह अंतर बहुत अधिक है, तो यह दर्शाता है कि variables एक-दूसरे पर निर्भर हैं, अन्यथा वे स्वतंत्र हैं।

2️⃣ Chi-Square Test के प्रकार

  • 1. Chi-Square Test of Independence: यह जांचता है कि दो categorical variables के बीच कोई संबंध है या नहीं।
  • 2. Chi-Square Goodness of Fit Test: यह जांचता है कि कोई observed dataset किसी theoretical distribution से मेल खाता है या नहीं।

3️⃣ Chi-Square Test का सूत्र

Formula:

χ² = Σ ((O - E)² / E)

  • O = Observed Frequency
  • E = Expected Frequency
  • Σ = Summation (सभी वर्गों का योग)

जितना अधिक χ² का मान होगा, उतना ही अधिक अंतर observed और expected data में होगा।

4️⃣ Chi-Square Test करने की प्रक्रिया

  1. Hypothesis तय करें (H₀ और H₁)।
  2. Expected frequency की गणना करें।
  3. χ² का मान निकालें।
  4. Degrees of Freedom (df) = (rows – 1) × (columns – 1)
  5. p-value निकालें और significance level (α = 0.05) से तुलना करें।
  6. यदि p ≤ 0.05, तो H₀ को अस्वीकार करें।

5️⃣ उदाहरण

मान लीजिए, किसी कंपनी ने यह जानने के लिए एक survey किया कि क्या ग्राहक की आयु और खरीदारी प्राथमिकता के बीच कोई संबंध है।

Age GroupOnline ShoppingOffline ShoppingTotal
18–306040100
31–505050100
51+3070100

इस डेटा के लिए expected frequencies निकाली जाएँगी और फिर χ² formula के माध्यम से परिणाम प्राप्त किया जाएगा। यदि χ² का मान critical value से अधिक है, तो हम कहेंगे कि “आयु और खरीदारी व्यवहार के बीच महत्वपूर्ण संबंध है।”

6️⃣ Chi-Square Test के उपयोग

  • मार्केट रिसर्च में ग्राहक व्यवहार विश्लेषण।
  • हेल्थकेयर में रोग और जीवनशैली के बीच संबंध का अध्ययन।
  • शिक्षा में छात्रों के प्रदर्शन और अध्ययन पद्धति के बीच संबंध।
  • AI/ML मॉडल में categorical variable correlation analysis।

7️⃣ Chi-Square Test की सीमाएँ

  • केवल categorical डेटा के लिए उपयुक्त।
  • Expected frequency 5 से कम नहीं होनी चाहिए।
  • Outliers परिणाम को प्रभावित कर सकते हैं।
  • बड़े samples में छोटे differences भी significant दिख सकते हैं।

8️⃣ निष्कर्ष

Chi-Square Test डेटा एनालिटिक्स में संबंधों की खोज और validation के लिए एक शक्तिशाली उपकरण है। यह हमें वास्तविकता और अपेक्षा के बीच के अंतर को मापने में सक्षम बनाता है और यह निर्धारित करता है कि observed परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं या नहीं।

Related Post