Probability Basics

इस ब्लॉग में हम Probability के मूलभूत सिद्धांत सीखेंगे: experiment, outcome, sample space, events, conditional probability, independence और सामान्य distributions का परिचय। Python examples और practice assignments भी शामिल हैं।

🎲 Probability Basics (Statistics & Probability)

Probability अनिश्चितता को मापने का विज्ञान है। Data Science, Machine Learning और A/B testing जैसे real-world scenarios में decisions लेने के लिए probability की समझ आवश्यक है। इस ब्लॉग में हम प्रयोगात्मक शब्दावली, नियम, महत्वपूर्ण फॉर्मूलाज और Python simulations के साथ Probability की मजबूत नींव बनाएंगे।

🔤 मूल शब्दावली

  • Experiment: ऐसा process जिसे repeat करने पर outcomes मिलते हैं (जैसे सिक्का उछालना)।
  • Outcome: experiment का परिणाम (जैसे Head, Tail)।
  • Sample Space (S): सभी possible outcomes का सेट। उदाहरण: coin के लिए S = {H, T}।
  • Event (E): sample space का कोई subset। उदाहरण: even number आना जब dice फेंका जाए, E = {2,4,6}।
  • Probability of Event: किसी event के होने की संभावना, 0 और 1 के बीच।

📐 Probability के Axioms (Kolmogorov)

  1. 0 ≤ P(E) ≤ 1
  2. P(S) = 1
  3. यदि E1, E2, ... mutually exclusive हैं, तो P(E1 ∪ E2 ∪ ...) = P(E1) + P(E2) + ...

🧮 Classical Probability

जब सभी outcomes equally likely हों:

Formula: P(E) = अनुकूल outcomes / कुल outcomes

Example: एक fair dice पर even आने की P(E) = 3/6 = 1/2
    

🧩 Combinatorics का उपयोग

  • Permutation (क्रमचय): क्रम मायने रखता है। nP r = n! / (n - r)!
  • Combination (चयन): क्रम मायने नहीं रखता। nC r = n! / (r! (n - r)!)

Example: 52 कार्डों में से 5 कार्ड चुनने के तरीकों की संख्या = 52C5।

🔗 Independence और Conditional Probability

Independent events: E और F स्वतंत्र हों तो P(E ∩ F) = P(E) P(F)।
Conditional probability: F के हो जाने पर E की संभावना: P(E | F) = P(E ∩ F) / P(F), बशर्ते P(F) > 0।

Law of Total Probability:
यदि {A1, A2, ... , Ak} sample space का partition है, तो 
P(B) = Σ P(B | Ai) P(Ai)

Bayes Theorem:
P(A | B) = [ P(B | A) P(A) ] / P(B)
    

📦 Random Variables: Discrete vs Continuous

  • Discrete Random Variable: countable values (जैसे success की संख्या)।
  • Continuous Random Variable: uncountably many values (जैसे height, time)।
  • PMF/PDF/CDF: discrete के लिए PMF, continuous के लिए PDF; दोनों के लिए cumulative distribution CDF।

📈 सामान्य Probability Distributions

Distribution Type Parameters Use Case
Bernoulli Discrete p Single success/failure trial
Binomial Discrete n, p n trials में success count
Poisson Discrete λ Rare events per interval
Uniform Continuous a, b Equal likelihood in [a,b]
Normal (Gaussian) Continuous μ, σ² Natural phenomena, CLT

💻 Python Simulation Examples

# 1) Coin toss Monte Carlo
import random
def coin_prob(n=10000):
    heads = 0
    for _ in range(n):
        if random.random() < 0.5:
            heads += 1
    return heads / n

print("Estimated P(Head):", coin_prob())

# 2) Conditional probability simulation (drawing balls)
# Urn: 3 red, 2 blue. Draw 2 without replacement. P(second is red | first is red)
import itertools, math
urn = ["R","R","R","B","B"]
pairs = list(itertools.permutations(urn, 2))
f_first_red = [p for p in pairs if p[0] == "R"]
cond = sum(1 for p in f_first_red if p[1] == "R") / len(f_first_red)
print("P(second red | first red):", cond)

# 3) Binomial approximation via simulation
import numpy as np
n, p = 10, 0.3
trials = 100000
success_counts = np.random.binomial(n, p, size=trials)
print("Mean ~ n*p:", success_counts.mean())
print("Var  ~ n*p*(1-p):", success_counts.var())
    

👀 Visual Intuition (Normal vs Binomial)

Binomial(n, p) बड़े n और p not-too-extreme होने पर Normal(μ = np, σ² = np(1 − p)) के करीब दिखती है। यही Central Limit Theorem की बुनियादी झलक देती है, जिससे sampling distributions लगभग normal होने लगती हैं।

⚠️ Common Pitfalls

  • Mutually exclusive और independent events को गड़बड़ कर देना।
  • Conditional probability में conditioning event को ठीक से define न करना।
  • Sampling bias के कारण गलत probabilities assume करना।
  • Rare event fallacy: बहुत छोटे p पर भी outcome को impossible मान लेना।

🧪 Mini Case Study: Email Spam Filter

किसी ईमेल के spam होने की संभावना Bayes theorem से निकाली जा सकती है। शब्दों की likelihoods P(word | spam) और prior P(spam) मिलाकर हम P(spam | words) compute करते हैं। Naive Bayes model independence assumption लेकर तेजी से probabilistic classification करता है।

📝 Practice Assignments

  1. एक fair dice के लिए event E = {2,4,6}. Classical probability से P(E) निकालिए और 10,000 simulations कर के verify कीजिए।
  2. डेck से बिना replacement दो कार्ड निकालते हैं। P(दूसरा Ace | पहला Ace) analytical और simulation दोनों तरीकों से निकालिए।
  3. Binomial(n=20, p=0.4) को 100,000 बार simulate करें, empirical mean और variance निकालकर theoretical np और np(1-p) से compare करें।
  4. एक medical test की sensitivity, specificity और disease prevalence मानकर Bayes theorem से P(disease | positive) निकालें।

🏆 निष्कर्ष

Probability के मूलभूत concepts जैसे sample space, events, independence, conditional probability और distributions हर data professional के लिए आधारशिला हैं। इनकी समझ से आप बेहतर hypotheses बनाते हैं, अनिश्चितता को मापते हैं और अधिक विश्वसनीय निष्कर्ष निकालते हैं। Practice और simulations के साथ यह विषय सहज और मज़ेदार बन जाता है।