🎲 Probability Basics (Statistics & Probability)
Probability अनिश्चितता को मापने का विज्ञान है। Data Science, Machine Learning और A/B testing जैसे real-world scenarios में decisions लेने के लिए probability की समझ आवश्यक है। इस ब्लॉग में हम प्रयोगात्मक शब्दावली, नियम, महत्वपूर्ण फॉर्मूलाज और Python simulations के साथ Probability की मजबूत नींव बनाएंगे।
🔤 मूल शब्दावली
- Experiment: ऐसा process जिसे repeat करने पर outcomes मिलते हैं (जैसे सिक्का उछालना)।
- Outcome: experiment का परिणाम (जैसे Head, Tail)।
- Sample Space (S): सभी possible outcomes का सेट। उदाहरण: coin के लिए S = {H, T}।
- Event (E): sample space का कोई subset। उदाहरण: even number आना जब dice फेंका जाए, E = {2,4,6}।
- Probability of Event: किसी event के होने की संभावना, 0 और 1 के बीच।
📐 Probability के Axioms (Kolmogorov)
- 0 ≤ P(E) ≤ 1
- P(S) = 1
- यदि E1, E2, ... mutually exclusive हैं, तो P(E1 ∪ E2 ∪ ...) = P(E1) + P(E2) + ...
🧮 Classical Probability
जब सभी outcomes equally likely हों:
Formula: P(E) = अनुकूल outcomes / कुल outcomes Example: एक fair dice पर even आने की P(E) = 3/6 = 1/2
🧩 Combinatorics का उपयोग
- Permutation (क्रमचय): क्रम मायने रखता है। nP r = n! / (n - r)!
- Combination (चयन): क्रम मायने नहीं रखता। nC r = n! / (r! (n - r)!)
Example: 52 कार्डों में से 5 कार्ड चुनने के तरीकों की संख्या = 52C5।
🔗 Independence और Conditional Probability
Independent events: E और F स्वतंत्र हों तो P(E ∩ F) = P(E) P(F)।
Conditional probability: F के हो जाने पर E की संभावना: P(E | F) = P(E ∩ F) / P(F), बशर्ते P(F) > 0।
Law of Total Probability: यदि {A1, A2, ... , Ak} sample space का partition है, तो P(B) = Σ P(B | Ai) P(Ai) Bayes Theorem: P(A | B) = [ P(B | A) P(A) ] / P(B)
📦 Random Variables: Discrete vs Continuous
- Discrete Random Variable: countable values (जैसे success की संख्या)।
- Continuous Random Variable: uncountably many values (जैसे height, time)।
- PMF/PDF/CDF: discrete के लिए PMF, continuous के लिए PDF; दोनों के लिए cumulative distribution CDF।
📈 सामान्य Probability Distributions
Distribution | Type | Parameters | Use Case |
---|---|---|---|
Bernoulli | Discrete | p | Single success/failure trial |
Binomial | Discrete | n, p | n trials में success count |
Poisson | Discrete | λ | Rare events per interval |
Uniform | Continuous | a, b | Equal likelihood in [a,b] |
Normal (Gaussian) | Continuous | μ, σ² | Natural phenomena, CLT |
💻 Python Simulation Examples
# 1) Coin toss Monte Carlo import random def coin_prob(n=10000): heads = 0 for _ in range(n): if random.random() < 0.5: heads += 1 return heads / n print("Estimated P(Head):", coin_prob()) # 2) Conditional probability simulation (drawing balls) # Urn: 3 red, 2 blue. Draw 2 without replacement. P(second is red | first is red) import itertools, math urn = ["R","R","R","B","B"] pairs = list(itertools.permutations(urn, 2)) f_first_red = [p for p in pairs if p[0] == "R"] cond = sum(1 for p in f_first_red if p[1] == "R") / len(f_first_red) print("P(second red | first red):", cond) # 3) Binomial approximation via simulation import numpy as np n, p = 10, 0.3 trials = 100000 success_counts = np.random.binomial(n, p, size=trials) print("Mean ~ n*p:", success_counts.mean()) print("Var ~ n*p*(1-p):", success_counts.var())
👀 Visual Intuition (Normal vs Binomial)
Binomial(n, p) बड़े n और p not-too-extreme होने पर Normal(μ = np, σ² = np(1 − p)) के करीब दिखती है। यही Central Limit Theorem की बुनियादी झलक देती है, जिससे sampling distributions लगभग normal होने लगती हैं।
⚠️ Common Pitfalls
- Mutually exclusive और independent events को गड़बड़ कर देना।
- Conditional probability में conditioning event को ठीक से define न करना।
- Sampling bias के कारण गलत probabilities assume करना।
- Rare event fallacy: बहुत छोटे p पर भी outcome को impossible मान लेना।
🧪 Mini Case Study: Email Spam Filter
किसी ईमेल के spam होने की संभावना Bayes theorem से निकाली जा सकती है। शब्दों की likelihoods P(word | spam) और prior P(spam) मिलाकर हम P(spam | words) compute करते हैं। Naive Bayes model independence assumption लेकर तेजी से probabilistic classification करता है।
📝 Practice Assignments
- एक fair dice के लिए event E = {2,4,6}. Classical probability से P(E) निकालिए और 10,000 simulations कर के verify कीजिए।
- डेck से बिना replacement दो कार्ड निकालते हैं। P(दूसरा Ace | पहला Ace) analytical और simulation दोनों तरीकों से निकालिए।
- Binomial(n=20, p=0.4) को 100,000 बार simulate करें, empirical mean और variance निकालकर theoretical np और np(1-p) से compare करें।
- एक medical test की sensitivity, specificity और disease prevalence मानकर Bayes theorem से P(disease | positive) निकालें।
🏆 निष्कर्ष
Probability के मूलभूत concepts जैसे sample space, events, independence, conditional probability और distributions हर data professional के लिए आधारशिला हैं। इनकी समझ से आप बेहतर hypotheses बनाते हैं, अनिश्चितता को मापते हैं और अधिक विश्वसनीय निष्कर्ष निकालते हैं। Practice और simulations के साथ यह विषय सहज और मज़ेदार बन जाता है।