Probability Basics in Hindi – Sample Space, Events, Conditional Probability, Distributions

🎲 Probability Basics (Statistics & Probability)

Probability अनिश्चितता को मापने का विज्ञान है। Data Science, Machine Learning और A/B testing जैसे real-world scenarios में decisions लेने के लिए probability की समझ आवश्यक है। इस ब्लॉग में हम प्रयोगात्मक शब्दावली, नियम, महत्वपूर्ण फॉर्मूलाज और Python simulations के साथ Probability की मजबूत नींव बनाएंगे।

🔤 मूल शब्दावली

Experiment: ऐसा process जिसे repeat करने पर outcomes मिलते हैं (जैसे सिक्का उछालना)।
Outcome: experiment का परिणाम (जैसे Head, Tail)।
Sample Space (S): सभी possible outcomes का सेट। उदाहरण: coin के लिए S = {H, T}।
Event (E): sample space का कोई subset। उदाहरण: even number आना जब dice फेंका जाए, E = {2,4,6}।
Probability of Event: किसी event के होने की संभावना, 0 और 1 के बीच।

📐 Probability के Axioms (Kolmogorov)

0 ≤ P(E) ≤ 1
P(S) = 1
यदि E1, E2, ... mutually exclusive हैं, तो P(E1 ∪ E2 ∪ ...) = P(E1) + P(E2) + ...

🧮 Classical Probability

जब सभी outcomes equally likely हों:

Formula: P(E) = अनुकूल outcomes / कुल outcomes

Example: एक fair dice पर even आने की P(E) = 3/6 = 1/2

🧩 Combinatorics का उपयोग

Permutation (क्रमचय): क्रम मायने रखता है। nP r = n! / (n - r)!
Combination (चयन): क्रम मायने नहीं रखता। nC r = n! / (r! (n - r)!)

Example: 52 कार्डों में से 5 कार्ड चुनने के तरीकों की संख्या = 52C5।

🔗 Independence और Conditional Probability

Independent events: E और F स्वतंत्र हों तो P(E ∩ F) = P(E) P(F)।
Conditional probability: F के हो जाने पर E की संभावना: P(E | F) = P(E ∩ F) / P(F), बशर्ते P(F) > 0।

Law of Total Probability:
यदि {A1, A2, ... , Ak} sample space का partition है, तो 
P(B) = Σ P(B | Ai) P(Ai)

Bayes Theorem:
P(A | B) = [ P(B | A) P(A) ] / P(B)

📦 Random Variables: Discrete vs Continuous

Discrete Random Variable: countable values (जैसे success की संख्या)।
Continuous Random Variable: uncountably many values (जैसे height, time)।
PMF/PDF/CDF: discrete के लिए PMF, continuous के लिए PDF; दोनों के लिए cumulative distribution CDF।

📈 सामान्य Probability Distributions

Distribution	Type	Parameters	Use Case
Bernoulli	Discrete	p	Single success/failure trial
Binomial	Discrete	n, p	n trials में success count
Poisson	Discrete	λ	Rare events per interval
Uniform	Continuous	a, b	Equal likelihood in [a,b]
Normal (Gaussian)	Continuous	μ, σ²	Natural phenomena, CLT

💻 Python Simulation Examples

# 1) Coin toss Monte Carlo
import random
def coin_prob(n=10000):
    heads = 0
    for _ in range(n):
        if random.random() < 0.5:
            heads += 1
    return heads / n

print("Estimated P(Head):", coin_prob())

# 2) Conditional probability simulation (drawing balls)
# Urn: 3 red, 2 blue. Draw 2 without replacement. P(second is red | first is red)
import itertools, math
urn = ["R","R","R","B","B"]
pairs = list(itertools.permutations(urn, 2))
f_first_red = [p for p in pairs if p[0] == "R"]
cond = sum(1 for p in f_first_red if p[1] == "R") / len(f_first_red)
print("P(second red | first red):", cond)

# 3) Binomial approximation via simulation
import numpy as np
n, p = 10, 0.3
trials = 100000
success_counts = np.random.binomial(n, p, size=trials)
print("Mean ~ n*p:", success_counts.mean())
print("Var  ~ n*p*(1-p):", success_counts.var())

👀 Visual Intuition (Normal vs Binomial)

Binomial(n, p) बड़े n और p not-too-extreme होने पर Normal(μ = np, σ² = np(1 − p)) के करीब दिखती है। यही Central Limit Theorem की बुनियादी झलक देती है, जिससे sampling distributions लगभग normal होने लगती हैं।

⚠️ Common Pitfalls

Mutually exclusive और independent events को गड़बड़ कर देना।
Conditional probability में conditioning event को ठीक से define न करना।
Sampling bias के कारण गलत probabilities assume करना।
Rare event fallacy: बहुत छोटे p पर भी outcome को impossible मान लेना।

🧪 Mini Case Study: Email Spam Filter

किसी ईमेल के spam होने की संभावना Bayes theorem से निकाली जा सकती है। शब्दों की likelihoods P(word | spam) और prior P(spam) मिलाकर हम P(spam | words) compute करते हैं। Naive Bayes model independence assumption लेकर तेजी से probabilistic classification करता है।

📝 Practice Assignments

एक fair dice के लिए event E = {2,4,6}. Classical probability से P(E) निकालिए और 10,000 simulations कर के verify कीजिए।
डेck से बिना replacement दो कार्ड निकालते हैं। P(दूसरा Ace | पहला Ace) analytical और simulation दोनों तरीकों से निकालिए।
Binomial(n=20, p=0.4) को 100,000 बार simulate करें, empirical mean और variance निकालकर theoretical np और np(1-p) से compare करें।
एक medical test की sensitivity, specificity और disease prevalence मानकर Bayes theorem से P(disease | positive) निकालें।

🏆 निष्कर्ष

Probability के मूलभूत concepts जैसे sample space, events, independence, conditional probability और distributions हर data professional के लिए आधारशिला हैं। इनकी समझ से आप बेहतर hypotheses बनाते हैं, अनिश्चितता को मापते हैं और अधिक विश्वसनीय निष्कर्ष निकालते हैं। Practice और simulations के साथ यह विषय सहज और मज़ेदार बन जाता है।