Measures of Location and Dispersion in Data Analytics | डेटा एनालिटिक्स में स्थान और प्रसरण के माप


Measures of Location and Dispersion in Data Analytics | डेटा एनालिटिक्स में स्थान और प्रसरण के माप

डेटा एनालिटिक्स में, किसी dataset के distribution को समझने के लिए केवल केंद्रीय प्रवृत्ति (Central Tendency) ही पर्याप्त नहीं होती। हमें यह भी जानना आवश्यक होता है कि डेटा कितना फैला हुआ है और उसकी स्थिति (location) कहाँ है। यही कार्य Measures of Location और Measures of Dispersion करते हैं।

Measures of Location डेटा के वितरण में किसी विशिष्ट बिंदु या percentile को दर्शाते हैं, जबकि Measures of Dispersion यह बताते हैं कि डेटा औसत के आसपास कितना फैला हुआ है। दोनों ही सांख्यिकीय विश्लेषण के लिए अत्यंत महत्वपूर्ण हैं।

1️⃣ Measures of Location (स्थान के माप)

Location measures dataset में किसी विशिष्ट स्थान (Position) को दर्शाते हैं। ये हमें डेटा के अंदर के पैटर्न और वितरण की समझ देते हैं।

मुख्य प्रकार:

  • Quartiles (Q1, Q2, Q3): डेटा को चार समान भागों में विभाजित करते हैं। Q2 Median कहलाता है।
  • Percentiles: डेटा को 100 बराबर भागों में बाँटते हैं। उदाहरण: 25वाँ Percentile = Q1।
  • Deciles: डेटा को 10 बराबर भागों में बाँटते हैं।
  • Mode: डेटा का सबसे अधिक बार आने वाला मान।

उदाहरण:

यदि किसी छात्र समूह के अंक हैं: 10, 20, 30, 40, 50, 60, 70, 80, 90, 100

  • Q1 = 25वाँ Percentile = 30
  • Q2 = Median = 55
  • Q3 = 75वाँ Percentile = 80

2️⃣ Measures of Dispersion (प्रसरण के माप)

Dispersion यह दर्शाता है कि डेटा के मान औसत के आसपास कितने फैले हुए हैं। यह variability या consistency का संकेत देता है।

मुख्य प्रकार:

  • Range: अधिकतम और न्यूनतम मान के बीच का अंतर।
    Range = Max – Min
  • Interquartile Range (IQR): डेटा के बीच के 50% हिस्से का फैलाव।
    IQR = Q3 – Q1
  • Mean Deviation: Mean से सभी मानों की औसत दूरी।
  • Variance: Mean से विचलनों के वर्गों का औसत।
    σ² = Σ(x – x̄)² / n
  • Standard Deviation: Variance का वर्गमूल।
    σ = √Variance
  • Coefficient of Variation (CV): Standard Deviation को Mean से विभाजित कर प्रतिशत में व्यक्त किया जाता है।
    CV = (σ / x̄) × 100

उदाहरण:

डेटा: 10, 20, 30, 40, 50

  • Mean = 30
  • Variance = [(10−30)²+(20−30)²+(30−30)²+(40−30)²+(50−30)²]/5 = 200
  • Standard Deviation = √200 ≈ 14.14
  • CV = (14.14 / 30) × 100 ≈ 47.1%

3️⃣ Dispersion के प्रकार

  • Absolute Dispersion: जब फैलाव को वास्तविक इकाइयों में मापा जाता है (जैसे रुपये, किलो आदि)।
  • Relative Dispersion: जब फैलाव को प्रतिशत या अनुपात में मापा जाता है (जैसे CV)।

4️⃣ Measures of Dispersion की उपयोगिता

  • डेटा की स्थिरता और समानता का विश्लेषण।
  • दो datasets की variability की तुलना।
  • Quality control और risk assessment में प्रयोग।
  • Machine Learning में feature normalization के लिए उपयोग।

5️⃣ वास्तविक अनुप्रयोग

  • फाइनेंस में शेयर रिटर्न की volatility मापने के लिए।
  • हेल्थकेयर में मरीजों की recovery consistency जांचने के लिए।
  • शिक्षा में परीक्षा परिणामों की एकरूपता मापने के लिए।
  • Manufacturing में product variability मापने के लिए।

6️⃣ निष्कर्ष

Measures of Location और Dispersion डेटा की गहराई और विविधता को समझने के लिए आवश्यक हैं। जहाँ Location डेटा की स्थिति दर्शाता है, वहीं Dispersion उसके फैलाव का बोध कराता है। दोनों का संयुक्त उपयोग हमें किसी dataset की पूर्ण तस्वीर देता है, जिससे विश्लेषण अधिक सटीक और सार्थक बनता है।

Related Post