Chi-Square Test in Data Analytics | डेटा एनालिटिक्स में χ² परीक्षण
Chi-Square Test in Data Analytics | डेटा एनालिटिक्स में χ² परीक्षण
Chi-Square Test in Data Analytics | डेटा एनालिटिक्स में χ² परीक्षण
डेटा एनालिटिक्स में Chi-Square Test (χ² Test) एक अत्यंत महत्वपूर्ण सांख्यिकीय तकनीक है जो श्रेणीगत (categorical) डेटा के बीच संबंध की जांच करने के लिए उपयोग की जाती है। यह यह निर्धारित करने में मदद करता है कि दो variables के बीच कोई सांख्यिकीय रूप से महत्वपूर्ण संबंध है या वे एक-दूसरे से स्वतंत्र हैं।
1️⃣ Chi-Square Test क्या है?
Chi-Square Test एक non-parametric सांख्यिकीय परीक्षण है जो यह मापता है कि किसी observed frequency और expected frequency के बीच कितना अंतर है।
यदि यह अंतर बहुत अधिक है, तो यह दर्शाता है कि variables एक-दूसरे पर निर्भर हैं, अन्यथा वे स्वतंत्र हैं।
2️⃣ Chi-Square Test के प्रकार
- 1. Chi-Square Test of Independence: यह जांचता है कि दो categorical variables के बीच कोई संबंध है या नहीं।
- 2. Chi-Square Goodness of Fit Test: यह जांचता है कि कोई observed dataset किसी theoretical distribution से मेल खाता है या नहीं।
3️⃣ Chi-Square Test का सूत्र
Formula:
χ² = Σ ((O - E)² / E)
- O = Observed Frequency
- E = Expected Frequency
- Σ = Summation (सभी वर्गों का योग)
जितना अधिक χ² का मान होगा, उतना ही अधिक अंतर observed और expected data में होगा।
4️⃣ Chi-Square Test करने की प्रक्रिया
- Hypothesis तय करें (H₀ और H₁)।
- Expected frequency की गणना करें।
- χ² का मान निकालें।
- Degrees of Freedom (df) = (rows – 1) × (columns – 1)
- p-value निकालें और significance level (α = 0.05) से तुलना करें।
- यदि p ≤ 0.05, तो H₀ को अस्वीकार करें।
5️⃣ उदाहरण
मान लीजिए, किसी कंपनी ने यह जानने के लिए एक survey किया कि क्या ग्राहक की आयु और खरीदारी प्राथमिकता के बीच कोई संबंध है।
| Age Group | Online Shopping | Offline Shopping | Total |
|---|---|---|---|
| 18–30 | 60 | 40 | 100 |
| 31–50 | 50 | 50 | 100 |
| 51+ | 30 | 70 | 100 |
इस डेटा के लिए expected frequencies निकाली जाएँगी और फिर χ² formula के माध्यम से परिणाम प्राप्त किया जाएगा। यदि χ² का मान critical value से अधिक है, तो हम कहेंगे कि “आयु और खरीदारी व्यवहार के बीच महत्वपूर्ण संबंध है।”
6️⃣ Chi-Square Test के उपयोग
- मार्केट रिसर्च में ग्राहक व्यवहार विश्लेषण।
- हेल्थकेयर में रोग और जीवनशैली के बीच संबंध का अध्ययन।
- शिक्षा में छात्रों के प्रदर्शन और अध्ययन पद्धति के बीच संबंध।
- AI/ML मॉडल में categorical variable correlation analysis।
7️⃣ Chi-Square Test की सीमाएँ
- केवल categorical डेटा के लिए उपयुक्त।
- Expected frequency 5 से कम नहीं होनी चाहिए।
- Outliers परिणाम को प्रभावित कर सकते हैं।
- बड़े samples में छोटे differences भी significant दिख सकते हैं।
8️⃣ निष्कर्ष
Chi-Square Test डेटा एनालिटिक्स में संबंधों की खोज और validation के लिए एक शक्तिशाली उपकरण है। यह हमें वास्तविकता और अपेक्षा के बीच के अंतर को मापने में सक्षम बनाता है और यह निर्धारित करता है कि observed परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं या नहीं।
Related Articles
Exercise: Create Your Own Visualization of a Complex Dataset | जटिल डेटा सेट का अपना विज़ुअलाइज़ेशन तैयार करें
Exercise: Create Your Own Visualization of a Complex Dataset | जटिल डे...
Read More →Inspiring Industry Projects in Data Visualization | डेटा विज़ुअलाइज़ेशन के प्रेरक इंडस्ट्री प्रोजेक्ट्स
Inspiring Industry Projects in Data Visualization | डेटा विज़ुअ...
Read More →Introduction to Power BI Tools | पावर BI टूल्स का परिचय और उपयोग
Introduction to Power BI Tools | पावर BI टूल्स का परिच...
Read More →Python Visualization Libraries (Matplotlib, Pandas, Seaborn, ggplot, Plotly) | पाइथन विज़ुअलाइज़ेशन लाइब्रेरीज़ का गहन अध्ययन
Python Visualization Libraries (Matplotlib, Pandas, Seaborn, ggplot, Plotly) | प...
Read More →Introduction to Data Visualization Tools | डेटा विज़ुअलाइज़ेशन टूल्स का परिचय
Introduction to Data Visualization Tools | डेटा विज़ुअलाइ...
Read More →