Univariate Data Exploration | एकचर डेटा अन्वेषण


Univariate Data Exploration | एकचर डेटा अन्वेषण

1️⃣ परिचय

एकचर डेटा अन्वेषण (Univariate Data Exploration) डेटा एनालिटिक्स की मूलभूत तकनीक है जिसमें हम केवल एक चर (Variable) का विश्लेषण करते हैं। इसका उद्देश्य उस चर के वितरण, केंद्रीय प्रवृत्ति (Central Tendency), और विचलन (Dispersion) को समझना होता है। यह डेटा की प्रारंभिक समझ प्रदान करता है जिससे हम आगे के बहुचर (Multivariate) विश्लेषण के लिए बेहतर रूप से तैयार हो पाते हैं।

उदाहरण के लिए, यदि हमारे पास किसी कंपनी के कर्मचारियों की आयु का डेटा है, तो एकचर अन्वेषण में हम उस आयु के औसत, माध्यिका, बहुलक, तथा वितरण को अध्ययन करेंगे। यह हमें यह समझने में मदद करेगा कि डेटा सामान्य रूप से वितरित है या नहीं, और क्या उसमें कोई असामान्य मान (Outliers) हैं।

2️⃣ एकचर अन्वेषण का उद्देश्य

  • डेटा वितरण को समझना।
  • केंद्रीय प्रवृत्ति और विचलन का निर्धारण करना।
  • डेटा में असामान्य या बाहरी मानों (Outliers) की पहचान करना।
  • डेटा की प्रकृति (Continuous, Categorical) समझना।

3️⃣ एकचर डेटा के प्रकार

  • संख्यात्मक डेटा (Numerical Data): जैसे आयु, आय, तापमान आदि।
  • श्रेणीबद्ध डेटा (Categorical Data): जैसे लिंग (Male/Female), शहर, विभाग आदि।

4️⃣ सांख्यिकीय मापदंड

Univariate Analysis में मुख्य रूप से निम्न सांख्यिकीय मान निकाले जाते हैं:

  • Mean (औसत): सभी मानों का औसत।
  • Median (माध्यिका): जब डेटा को क्रम में रखा जाए तो बीच का मान।
  • Mode (बहुलक): जो मान सबसे अधिक बार आता है।
  • Variance (विभेदन): डेटा के फैलाव का माप।
  • Standard Deviation (मानक विचलन): डेटा के औसत से दूरी का औसत।

5️⃣ ग्राफिकल तकनीकें

डेटा को समझने के लिए Visualization एक अत्यंत प्रभावी तरीका है:

  • Histogram: Continuous डेटा के वितरण को दिखाने के लिए।
  • Box Plot: डेटा के फैलाव और आउट्लायर्स को दर्शाने के लिए।
  • Bar Chart: श्रेणीबद्ध डेटा की तुलना के लिए।
  • Pie Chart: अनुपात दिखाने के लिए।

6️⃣ उदाहरण

मान लीजिए हमारे पास 100 कर्मचारियों की आयु का डेटा है।

  • Mean Age = 35 वर्ष
  • Median Age = 34 वर्ष
  • Mode Age = 32 वर्ष
  • Standard Deviation = 6 वर्ष

इससे हम यह निष्कर्ष निकाल सकते हैं कि अधिकांश कर्मचारियों की आयु 30 से 40 के बीच है। यदि कोई व्यक्ति 60 वर्ष का है, तो वह एक Outlier होगा।

7️⃣ डेटा वितरण का विश्लेषण

एकचर विश्लेषण में वितरण (Distribution) का प्रकार समझना बहुत महत्वपूर्ण है।

  • Normal Distribution: Mean, Median, Mode लगभग समान होते हैं।
  • Skewed Distribution: यदि डेटा दाएँ या बाएँ झुका हुआ हो।
  • Uniform Distribution: सभी मान लगभग समान आवृत्ति से आते हैं।

8️⃣ Python में Univariate Analysis

Python में Pandas और Matplotlib का उपयोग करके एकचर विश्लेषण आसानी से किया जा सकता है।

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')
print(df['Age'].describe())
plt.hist(df['Age'], bins=10, color='skyblue', edgecolor='black')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

9️⃣ Univariate Visualization Tools

  • Tableau – Easy drag & drop visualization
  • Power BI – Business dashboards
  • Python (Matplotlib, Seaborn)
  • Excel Charts

🔟 निष्कर्ष

एकचर डेटा अन्वेषण डेटा विश्लेषण की शुरुआत का पहला चरण है। इससे हमें यह पता चलता है कि डेटा कैसा है, उसमें कौन से पैटर्न हैं और क्या उसमें कोई त्रुटियाँ या असामान्य मान हैं। यह जानकारी आगे के बहुचर विश्लेषण के लिए मजबूत आधार प्रदान करती है।

Related Post