CNN Architectures and Examples: LeNet, AlexNet, ZF-Net, VGGNet, GoogLeNet, ResNet, R-CNN, Deep Dream, Deep Art | प्रमुख CNN आर्किटेक्चर्स का विस्तृत अध्ययन


CNN आर्किटेक्चर्स और उदाहरण: LeNet, AlexNet, ZF-Net, VGGNet, GoogLeNet, ResNet, R-CNN, Deep Dream, Deep Art

Convolutional Neural Networks (CNNs) ने डीप लर्निंग की दुनिया में क्रांति ला दी है। वर्षों के दौरान विभिन्न CNN आर्किटेक्चर्स विकसित किए गए हैं जो इमेज क्लासिफिकेशन, ऑब्जेक्ट डिटेक्शन और कंप्यूटर विज़न के विभिन्न कार्यों में उपयोग होते हैं। इस ब्लॉग में हम इन प्रसिद्ध CNN आर्किटेक्चर्स का विस्तार से अध्ययन करेंगे।

📘 1️⃣ LeNet (1998) — डीप लर्निंग की नींव

LeNet-5 का विकास Yann LeCun ने किया था। यह पहला CNN मॉडल था जिसने हस्तलिखित अंकों की पहचान (Handwritten Digit Recognition) में उत्कृष्ट प्रदर्शन किया।

  • इनपुट साइज: 32×32 ग्रेस्केल इमेज
  • लेयर्स: 2 Convolutional + 2 Subsampling + 3 Fully Connected
  • एक्टिवेशन: Sigmoid/Tanh

LeNet ने CNNs की नींव रखी और आगे आने वाले सभी मॉडलों का आधार बना।

⚙️ 2️⃣ AlexNet (2012) — डीप लर्निंग का पुनर्जन्म

AlexNet ने 2012 में ImageNet Challenge जीतकर डीप लर्निंग को लोकप्रिय बनाया। यह मॉडल GPU पर ट्रेन किया गया था और ReLU activation का उपयोग करने वाला पहला प्रमुख नेटवर्क था।

  • 8 लेयर (5 Convolutional + 3 Fully Connected)
  • Dropout और Data Augmentation का उपयोग
  • Top-5 error rate: 16%

AlexNet ने दिखाया कि बड़े CNNs और GPU computation वास्तविक विश्व समस्याओं को हल कर सकते हैं।

🔹 3️⃣ ZF-Net (2013) — AlexNet का परिष्कृत संस्करण

ZF-Net (Zeiler and Fergus Network) ने AlexNet की व्याख्यात्मकता बढ़ाई। इस मॉडल ने Deconvolutional Visualization तकनीक पेश की, जिससे CNNs को समझना आसान हुआ।

  • मूल AlexNet संरचना में Filter Sizes और Stride को बेहतर किया गया।
  • Feature map visualization से internal working स्पष्ट की गई।

📈 4️⃣ VGGNet (2014) — Simple yet Deep

VGGNet ने यह सिद्ध किया कि छोटे 3×3 filters के साथ गहरी CNN संरचना उत्कृष्ट प्रदर्शन दे सकती है। इस मॉडल में 16 और 19 लेयर वाले दो संस्करण (VGG16 और VGG19) प्रसिद्ध हैं।

  • Uniform filter size (3×3)
  • ReLU activations
  • High memory consumption लेकिन अधिक सटीकता

VGGNet आज भी Transfer Learning में व्यापक रूप से उपयोग किया जाता है।

🧠 5️⃣ GoogLeNet (2015) — Inception Network

GoogLeNet ने Inception Modules का परिचय दिया, जो विभिन्न filter sizes (1×1, 3×3, 5×5) को समानांतर में उपयोग करते हैं। इससे computation कम हुई और accuracy बढ़ी।

  • 22 लेयर्स
  • Global Average Pooling (FC layer की जगह)
  • Parameter optimization में क्रांति

⚡ 6️⃣ ResNet (2016) — Deep Learning का नया युग

ResNet (Residual Network) ने Skip Connections का विचार प्रस्तुत किया ताकि “Vanishing Gradient” समस्या का समाधान हो सके। ResNet-50 और ResNet-101 इसके लोकप्रिय संस्करण हैं।

  • Residual Block → F(x) + x
  • He initialization और Batch Normalization
  • 1000+ लेयर तक ट्रेनिंग संभव

ResNet आधुनिक CNNs की नींव है — EfficientNet और Transformers भी इसकी प्रेरणा से बने हैं।

📗 7️⃣ R-CNN (2014) — Object Detection में क्रांति

Region-based CNN (R-CNN) ने object detection को पूरी तरह बदल दिया। इस मॉडल ने selective search द्वारा regions को crop करके CNN के माध्यम से वर्गीकृत किया।

  • Selective Search → Region Proposal
  • प्रत्येक region को CNN के माध्यम से classify करना
  • Slow लेकिन सटीक

इसके बाद Fast R-CNN, Faster R-CNN और Mask R-CNN जैसे उन्नत संस्करण विकसित हुए।

🎨 8️⃣ Deep Dream (2015) — Neural Art

Deep Dream Google द्वारा विकसित एक visualization तकनीक है जो CNN को “सपने देखने” जैसा व्यवहार करने देती है। यह इमेजेस में पैटर्न्स को बढ़ाकर अतियथार्थवादी (surreal) कला उत्पन्न करती है।

from tensorflow.keras.applications import InceptionV3
model = InceptionV3(weights='imagenet', include_top=False)
# Apply deep dream by gradient ascent

🖌️ 9️⃣ Deep Art — Style Transfer

Deep Art या Neural Style Transfer एक तकनीक है जो एक इमेज की स्टाइल को दूसरी इमेज के कंटेंट पर लागू करती है। यह CNN के feature maps का उपयोग करती है।

Loss = α * Content_Loss + β * Style_Loss

इसका उपयोग कला, डिजाइन, और फिल्म निर्माण में व्यापक रूप से किया जा रहा है।

📙 निष्कर्ष:

CNN आर्किटेक्चर्स की यह यात्रा LeNet से शुरू होकर ResNet और Deep Art तक पहुँची है। हर नया मॉडल पिछले मॉडल की सीमाओं को पार कर आगे बढ़ा है। 2025 में, CNNs अभी भी computer vision के लिए सबसे प्रभावी संरचनाएँ हैं, हालाँकि अब Vision Transformers जैसी नई तकनीकें भी उभर रही हैं। फिर भी, CNN की भूमिका आज भी AI के “Visual Brain” के रूप में बनी हुई है।

Related Post