Momentum Based Gradient Descent | मोमेंटम आधारित ग्रेडिएंट डिसेंट का सम्पूर्ण अध्ययन


मोमेंटम आधारित ग्रेडिएंट डिसेंट (Momentum Based Gradient Descent) का सम्पूर्ण अध्ययन

मोमेंटम आधारित ग्रेडिएंट डिसेंट डीप लर्निंग में एक उन्नत ऑप्टिमाइजेशन एल्गोरिद्म है, जो पारंपरिक Gradient Descent की तुलना में तेज़ी और स्थिरता दोनों प्रदान करता है। यह एल्गोरिद्म भौतिकी में “मोमेंटम” (Momentum) की अवधारणा पर आधारित है, जहाँ कोई वस्तु अपनी पिछली गति (Velocity) को बनाए रखती है ताकि वह आसानी से अपने लक्ष्य तक पहुँच सके।

📘 Momentum क्या है?

जब Gradient Descent वेट्स को अपडेट करता है, तो वह हर बार ग्रेडिएंट की दिशा में छोटा कदम लेता है। कभी-कभी लॉस फंक्शन की सतह असमान (zig-zag) होती है, जिससे Gradient Descent धीमा हो जाता है। Momentum इस समस्या को दूर करता है, पिछले कदमों की गति को जोड़कर दिशा को स्थिर करता है।

🧮 गणितीय समीकरण:

v(t) = β * v(t-1) + (1 - β) * ∇J(θ)
θ = θ - η * v(t)

जहाँ, v(t) = वर्तमान वेग (Velocity), β = Momentum coefficient (0.9 सामान्यतः), ∇J(θ) = Gradient, η = Learning Rate।

🧠 सरल शब्दों में समझें:

Momentum Gradient Descent को पिछले ग्रेडिएंट्स की दिशा याद रखने देता है, जिससे नेटवर्क “inertia” प्राप्त करता है। इससे एल्गोरिद्म छोटे-छोटे झटकों (Oscillations) को कम करता है और न्यूनतम बिंदु तक स्मूद तरीके से पहुँचता है।

⚙️ कार्यप्रणाली (Working Steps):

  1. वेट्स को रैंडम रूप से इनिशियलाइज़ करें।
  2. ग्रेडिएंट्स की गणना करें।
  3. Velocity को अपडेट करें (Momentum formula से)।
  4. Velocity के अनुसार वेट्स अपडेट करें।
  5. प्रक्रिया तब तक दोहराएँ जब तक लॉस न्यूनतम न हो जाए।

📈 मोमेंटम के लाभ:

  • तेज़ कन्वर्जेंस (Convergence)।
  • Oscillations में कमी।
  • Local Minima से बाहर निकलने की क्षमता।
  • Loss Function को स्मूद तरीके से न्यूनतम करना।

📗 ग्राफिकल उदाहरण:

यदि Gradient Descent एक गेंद है जो घाटी में लुढ़क रही है, तो Momentum उस गेंद की गति को बढ़ाता है ताकि वह आसानी से घाटी के तल तक पहुँच सके। वह छोटे-छोटे अवरोधों को पार कर सकती है क्योंकि उसमें “momentum” है।

🧩 हाइपरपैरामीटर्स:

  • Learning Rate (η): कदम की लंबाई निर्धारित करता है।
  • Momentum Coefficient (β): पिछली दिशा को कितना याद रखना है, यह बताता है। (0.9 → सबसे आम मान)

📘 कोड उदाहरण (Python में):

v = 0
beta = 0.9
eta = 0.01
for each epoch:
    grad = compute_gradient()
    v = beta * v + (1 - beta) * grad
    theta = theta - eta * v

🚀 Momentum की सीमाएँ:

  • अगर β बहुत बड़ा है तो ओवरशूट हो सकता है।
  • Learning Rate और β को साथ में ट्यून करना आवश्यक है।
  • Complex surfaces पर कभी-कभी overshooting की संभावना।

📊 व्यावहारिक उपयोग:

  • Deep Feedforward Networks
  • Convolutional Neural Networks (CNNs)
  • Recurrent Neural Networks (RNNs)
  • Large-scale image classification (जैसे ImageNet)

📙 निष्कर्ष:

Momentum Based Gradient Descent, पारंपरिक Gradient Descent की सीमाओं को दूर करता है। यह मॉडल को तेज़ी से और स्मूद तरीके से Global Minimum तक पहुँचाता है। 2025 में, Momentum हर डीप लर्निंग ऑप्टिमाइज़र (जैसे Adam, RMSProp, NAG) की रीढ़ है। इसका प्रयोग सभी आधुनिक नेटवर्क आर्किटेक्चर में किया जाता है, जिससे प्रशिक्षण अधिक स्थिर और कुशल बनता है।

Related Post