Correlation Analysis in Data Analytics

Correlation Analysis in Data Analytics | डेटा एनालिटिक्स में सहसंबंध विश्लेषण

Correlation Analysis डेटा एनालिटिक्स में एक प्रमुख सांख्यिकीय तकनीक है जो यह मापती है कि दो या अधिक variables के बीच क्या संबंध (relationship) है और वह संबंध कितना मजबूत है। यह बताता है कि क्या एक variable में परिवर्तन होने से दूसरे variable में कोई परिवर्तन होता है या नहीं।

1️⃣ सहसंबंध (Correlation) क्या है?

सहसंबंध एक सांख्यिकीय माप है जो दो चर (variables) के बीच संबंध की दिशा और ताकत को निर्धारित करता है। Correlation का मान −1 से +1 के बीच होता है:

+1: पूर्ण सकारात्मक सहसंबंध (जब एक variable बढ़ता है, दूसरा भी बढ़ता है)।
−1: पूर्ण नकारात्मक सहसंबंध (जब एक बढ़ता है, दूसरा घटता है)।
0: कोई सहसंबंध नहीं।

2️⃣ Correlation का प्रकार

1. Positive Correlation: दोनों variables एक ही दिशा में बदलते हैं (जैसे — बिक्री और विज्ञापन खर्च)।
2. Negative Correlation: एक variable बढ़ता है जबकि दूसरा घटता है (जैसे — कीमत और मांग)।
3. Zero Correlation: कोई भी सीधा संबंध नहीं है।

3️⃣ Correlation Coefficient (r)

Correlation की ताकत और दिशा को मापने के लिए Pearson’s Correlation Coefficient (r) का उपयोग किया जाता है।

Formula: r = Σ(x−x̄)(y−ȳ) / √[Σ(x−x̄)² × Σ(y−ȳ)²]

r का मान:

r → +1 → Perfect Positive
r → −1 → Perfect Negative
r → 0 → No Relation

4️⃣ Correlation Diagram

Correlation को scatter plot के माध्यम से भी प्रदर्शित किया जाता है। यदि बिंदु एक सीधी रेखा के पास हैं, तो correlation मजबूत है।

5️⃣ Spearman’s Rank Correlation

जब डेटा ordinal या non-linear होता है, तब Spearman’s Rank Correlation (ρ) का प्रयोग किया जाता है। यह रैंक (Rank) पर आधारित होता है।

Formula: ρ = 1 − [6Σd² / n(n² − 1)]

जहाँ d = rank का अंतर और n = observations की संख्या।

6️⃣ उदाहरण

मान लीजिए कि एक कंपनी विज्ञापन खर्च (X) और बिक्री (Y) के बीच संबंध जानना चाहती है:

विज्ञापन (X)	बिक्री (Y)
5	50
6	65
7	70
8	80
9	95

यहाँ correlation +0.98 आएगा, जो एक बहुत मजबूत positive संबंध दर्शाता है।

7️⃣ वास्तविक उपयोग

Business में — बिक्री और प्रचार खर्च के बीच संबंध।
Finance में — निवेश जोखिम और रिटर्न के बीच संबंध।
Healthcare में — BMI और रक्तचाप के बीच संबंध।
Data Science में — Feature Selection के लिए।

8️⃣ सीमाएँ

Correlation केवल संबंध बताता है, कारण (causation) नहीं।
Outliers correlation को प्रभावित कर सकते हैं।
Non-linear संबंधों में Pearson का उपयोग उपयुक्त नहीं।

9️⃣ निष्कर्ष

Correlation Analysis डेटा एनालिटिक्स का एक महत्वपूर्ण भाग है जो variables के बीच संबंधों की पहचान में सहायता करता है। यह feature engineering, predictive modeling और decision-making में उपयोगी है, लेकिन यह याद रखना आवश्यक है कि correlation का अर्थ causation नहीं होता।