Measures of Location and Dispersion in Data Analytics | डेटा एनालिटिक्स में स्थान और प्रसरण के माप

डेटा एनालिटिक्स में, किसी dataset के distribution को समझने के लिए केवल केंद्रीय प्रवृत्ति (Central Tendency) ही पर्याप्त नहीं होती। हमें यह भी जानना आवश्यक होता है कि डेटा कितना फैला हुआ है और उसकी स्थिति (location) कहाँ है। यही कार्य Measures of Location और Measures of Dispersion करते हैं।

Measures of Location डेटा के वितरण में किसी विशिष्ट बिंदु या percentile को दर्शाते हैं, जबकि Measures of Dispersion यह बताते हैं कि डेटा औसत के आसपास कितना फैला हुआ है। दोनों ही सांख्यिकीय विश्लेषण के लिए अत्यंत महत्वपूर्ण हैं।

1️⃣ Measures of Location (स्थान के माप)

Location measures dataset में किसी विशिष्ट स्थान (Position) को दर्शाते हैं। ये हमें डेटा के अंदर के पैटर्न और वितरण की समझ देते हैं।

मुख्य प्रकार:

Quartiles (Q1, Q2, Q3): डेटा को चार समान भागों में विभाजित करते हैं। Q2 Median कहलाता है।
Percentiles: डेटा को 100 बराबर भागों में बाँटते हैं। उदाहरण: 25वाँ Percentile = Q1।
Deciles: डेटा को 10 बराबर भागों में बाँटते हैं।
Mode: डेटा का सबसे अधिक बार आने वाला मान।

उदाहरण:

यदि किसी छात्र समूह के अंक हैं: 10, 20, 30, 40, 50, 60, 70, 80, 90, 100

Q1 = 25वाँ Percentile = 30
Q2 = Median = 55
Q3 = 75वाँ Percentile = 80

2️⃣ Measures of Dispersion (प्रसरण के माप)

Dispersion यह दर्शाता है कि डेटा के मान औसत के आसपास कितने फैले हुए हैं। यह variability या consistency का संकेत देता है।

मुख्य प्रकार:

Range: अधिकतम और न्यूनतम मान के बीच का अंतर।
Range = Max – Min
Interquartile Range (IQR): डेटा के बीच के 50% हिस्से का फैलाव।
IQR = Q3 – Q1
Mean Deviation: Mean से सभी मानों की औसत दूरी।
Variance: Mean से विचलनों के वर्गों का औसत।
σ² = Σ(x – x̄)² / n
Standard Deviation: Variance का वर्गमूल।
σ = √Variance
Coefficient of Variation (CV): Standard Deviation को Mean से विभाजित कर प्रतिशत में व्यक्त किया जाता है।
CV = (σ / x̄) × 100

उदाहरण:

डेटा: 10, 20, 30, 40, 50

Mean = 30
Variance = [(10−30)²+(20−30)²+(30−30)²+(40−30)²+(50−30)²]/5 = 200
Standard Deviation = √200 ≈ 14.14
CV = (14.14 / 30) × 100 ≈ 47.1%

3️⃣ Dispersion के प्रकार

Absolute Dispersion: जब फैलाव को वास्तविक इकाइयों में मापा जाता है (जैसे रुपये, किलो आदि)।
Relative Dispersion: जब फैलाव को प्रतिशत या अनुपात में मापा जाता है (जैसे CV)।

4️⃣ Measures of Dispersion की उपयोगिता

डेटा की स्थिरता और समानता का विश्लेषण।
दो datasets की variability की तुलना।
Quality control और risk assessment में प्रयोग।
Machine Learning में feature normalization के लिए उपयोग।

5️⃣ वास्तविक अनुप्रयोग

फाइनेंस में शेयर रिटर्न की volatility मापने के लिए।
हेल्थकेयर में मरीजों की recovery consistency जांचने के लिए।
शिक्षा में परीक्षा परिणामों की एकरूपता मापने के लिए।
Manufacturing में product variability मापने के लिए।

6️⃣ निष्कर्ष

Measures of Location और Dispersion डेटा की गहराई और विविधता को समझने के लिए आवश्यक हैं। जहाँ Location डेटा की स्थिति दर्शाता है, वहीं Dispersion उसके फैलाव का बोध कराता है। दोनों का संयुक्त उपयोग हमें किसी dataset की पूर्ण तस्वीर देता है, जिससे विश्लेषण अधिक सटीक और सार्थक बनता है।

Exercise: Create Your Own Visualization of a Complex Dataset | जटिल डेटा सेट का अपना विज़ुअलाइज़ेशन तैयार करें

Exercise: Create Your Own Visualization of a Complex Dataset | जटिल डे�...

Inspiring Industry Projects in Data Visualization | डेटा विज़ुअलाइज़ेशन के प्रेरक इंडस्ट्री प्रोजेक्ट्स

Inspiring Industry Projects in Data Visualization | डेटा विज़ुअ�...

Introduction to Power BI Tools | पावर BI टूल्स का परिचय और उपयोग

Introduction to Power BI Tools | पावर BI टूल्स का परिच...

Python Visualization Libraries (Matplotlib, Pandas, Seaborn, ggplot, Plotly) | पाइथन विज़ुअलाइज़ेशन लाइब्रेरीज़ का गहन अध्ययन

Python Visualization Libraries (Matplotlib, Pandas, Seaborn, ggplot, Plotly) | प�...

Introduction to Data Visualization Tools | डेटा विज़ुअलाइज़ेशन टूल्स का परिचय

Introduction to Data Visualization Tools | डेटा विज़ुअलाइ�...

Measures of Location and Dispersion in Data Analytics | डेटा एनालिटिक्स में स्थान और प्रसरण के माप