t-Test in Data Analytics | डेटा एनालिटिक्स में t-परीक्षण


t-Test in Data Analytics | डेटा एनालिटिक्स में t-परीक्षण

t-Test डेटा एनालिटिक्स में सबसे अधिक उपयोग होने वाले सांख्यिकीय परीक्षणों में से एक है। इसका उपयोग यह जांचने के लिए किया जाता है कि दो समूहों के बीच औसत में कोई सांख्यिकीय रूप से महत्वपूर्ण अंतर है या नहीं। जब हमारे पास छोटा sample size होता है और population variance अज्ञात होता है, तो t-Test सबसे उपयुक्त तकनीक मानी जाती है।

1️⃣ t-Test क्या है?

t-Test एक inferential statistical test है जो sample data के आधार पर population mean के बारे में निष्कर्ष निकालता है। यह निर्धारित करता है कि observed difference केवल संयोग से हुआ है या वास्तव में दो समूहों के बीच वास्तविक अंतर है।

यह test Student’s t-Distribution पर आधारित होता है, जो small samples के लिए विशेष रूप से उपयोगी है।

2️⃣ t-Test के प्रकार

  • 1. One-Sample t-Test: एक sample mean की तुलना किसी ज्ञात या अपेक्षित population mean से की जाती है।
  • 2. Independent Two-Sample t-Test: दो स्वतंत्र समूहों के mean की तुलना की जाती है।
  • 3. Paired Sample t-Test: एक ही समूह के पहले और बाद के मापों की तुलना की जाती है (जैसे किसी training से पहले और बाद)।

3️⃣ t-Test का सूत्र

Formula:

t = (x̄₁ − x̄₂) / √[(s₁² / n₁) + (s₂² / n₂)]

  • x̄₁, x̄₂ = दोनों समूहों के mean
  • s₁², s₂² = दोनों समूहों के variance
  • n₁, n₂ = sample size

4️⃣ Hypothesis Testing Steps

  1. Null Hypothesis (H₀) और Alternative Hypothesis (H₁) तय करें।
  2. Significance Level (α) निर्धारित करें (आमतौर पर 0.05)।
  3. t-statistic निकालें।
  4. Degrees of Freedom (df) निकालें।
  5. t-table से critical value की तुलना करें।
  6. यदि |t| ≥ tₐ(df), तो H₀ को अस्वीकार करें।

5️⃣ उदाहरण

मान लीजिए किसी कंपनी का दावा है कि उसके कर्मचारियों का औसत productivity score 75 है। एक sample में 10 कर्मचारियों का औसत स्कोर 70 और standard deviation 8 है। हम यह जांचना चाहते हैं कि क्या वास्तविक औसत 75 से भिन्न है।

Solution:

  • H₀: μ = 75
  • H₁: μ ≠ 75
  • t = (70 − 75) / (8 / √10) = −1.98
  • tₐ(9, 0.05) = ±2.262

क्योंकि −1.98 > −2.262, इसलिए हम H₀ अस्वीकार नहीं कर सकते। अर्थात कोई महत्वपूर्ण अंतर नहीं है।

6️⃣ t-Test के उपयोग

  • Machine Learning में मॉडल accuracy की तुलना।
  • Healthcare में दवा के प्रभाव का विश्लेषण।
  • शिक्षा में प्रशिक्षण से पहले और बाद के परिणामों की तुलना।
  • Business में दो उत्पादों या रणनीतियों के प्रदर्शन की तुलना।

7️⃣ सीमाएँ

  • डेटा लगभग normal distribution में होना चाहिए।
  • Outliers परिणाम को प्रभावित कर सकते हैं।
  • छोटे samples में p-value की sensitivity अधिक होती है।

8️⃣ निष्कर्ष

t-Test डेटा एनालिटिक्स में दो समूहों के mean की तुलना के लिए एक शक्तिशाली तकनीक है। यह हमें सांख्यिकीय रूप से यह निर्धारित करने की अनुमति देता है कि कोई अंतर केवल संयोगवश है या वास्तव में महत्वपूर्ण है।

Related Post