Lexical Analysis in Compiler Design | लेक्सिकल एनालिसिस क्या है? प्रक्रिया, टोकन, बफरिंग और उदाहरण सहित
लेक्सिकल विश्लेषण (Lexical Analysis in Compiler Design)
Lexical Analysis कंपाइलर की पहली और सबसे महत्वपूर्ण प्रक्रिया है। इस चरण में प्रोग्राम के सोर्स कोड को पढ़कर उसे छोटे-छोटे अर्थपूर्ण हिस्सों में विभाजित किया जाता है जिन्हें Tokens कहा जाता है। यह प्रक्रिया कंपाइलर के अन्य चरणों — जैसे Syntax और Semantic Analysis — की नींव रखती है।
📘 Lexical Analysis क्या है?
Lexical Analysis वह चरण है जिसमें सोर्स कोड को character-by-character पढ़ा जाता है और उसे Tokens में बदला जाता है। यह कार्य Lexical Analyzer या Scanner द्वारा किया जाता है।
🧠 Lexical Analyzer का कार्य:
- 🔹 सोर्स प्रोग्राम को character stream के रूप में पढ़ना।
- 🔹 Keywords, Identifiers, Operators, Literals और Delimiters की पहचान करना।
- 🔹 Unnecessary spaces और comments हटाना।
- 🔹 प्रत्येक token की जानकारी Symbol Table में store करना।
📗 उदाहरण:
Source Code: a = b + 5; Output Tokens: 1. id (a) 2. = 3. id (b) 4. + 5. num (5) 6. ;
⚙️ Lexical Analyzer की प्रक्रिया:
- Input Buffering: सोर्स कोड को दो buffers में पढ़ा जाता है ताकि characters को आसानी से manage किया जा सके।
- Token Generation: Character stream को logical units (tokens) में बाँटा जाता है।
- Pattern Recognition: प्रत्येक token को regular expressions से match किया जाता है।
- Symbol Table Management: Identifiers और constants की जानकारी symbol table में रखी जाती है।
📊 Lexical Analyzer का आरेख:
Source Program → [Lexical Analyzer] → Tokens → [Syntax Analyzer]
📚 Token, Pattern, और Lexeme:
- Token: एक logical unit जो प्रोग्राम में एक प्रकार की जानकारी को दर्शाता है (जैसे identifier, keyword)।
- Pattern: Regular expression जो किसी token की संरचना को परिभाषित करता है।
- Lexeme: Actual substring जो सोर्स कोड से token के रूप में चुनी जाती है।
उदाहरण:
| Token | Pattern | Lexeme |
|---|---|---|
| ID | Letter(Letter|Digit)* | a, b, sum |
| NUM | Digit+ | 5, 20 |
| ASSIGN | = | = |
| PLUS | + | + |
🧩 Input Buffering (इनपुट बफरिंग)
Lexical Analyzer सोर्स कोड को character stream के रूप में पढ़ता है। तेज़ी से characters पढ़ने के लिए दो बफर (buffers) का उपयोग किया जाता है।
Double Buffering Technique:
- 🔹 Buffer 1: Characters का पहला भाग।
- 🔹 Buffer 2: Characters का अगला भाग।
- 🔹 जब Buffer 1 समाप्त होता है, तो Buffer 2 activate हो जाता है।
🧮 Regular Expressions और Finite Automata:
Lexical Analyzer Tokens की पहचान के लिए Regular Expressions और Finite Automata का उपयोग करता है। Regular Expressions भाषा के patterns को परिभाषित करते हैं, जबकि Finite Automata उनका validation करते हैं।
उदाहरण:
Identifier = Letter (Letter | Digit)* Constant = Digit+ Operator = + | - | * | /
📗 Lexical Errors:
अगर किसी token का pattern पहचान में नहीं आता तो Lexical Error उत्पन्न होता है।
उदाहरण:
- Unknown Symbol → @, #, % आदि।
- Unterminated String → 'Hello
- Invalid Number → 99abc
⚙️ Tools for Lexical Analysis:
- LEX: एक लोकप्रिय lexical analyzer generator जो regular expressions के आधार पर tokens बनाता है।
- Flex: LEX का उन्नत संस्करण (fast lexical analyzer)।
LEX का उदाहरण:
%%
[0-9]+ { printf("NUMBER\n"); }
[a-zA-Z]+ { printf("IDENTIFIER\n"); }
. { printf("UNKNOWN\n"); }
%%
🚀 आधुनिक उपयोग (2025 Trends):
- 🔹 AI-Assisted Token Recognition (Error prediction using ML models)
- 🔹 Lexical Analysis in JIT Compilers
- 🔹 Parallel Tokenization in multi-core environments
📙 निष्कर्ष:
Lexical Analysis कंपाइलर का पहला और सबसे महत्वपूर्ण चरण है। यह प्रोग्राम को logical tokens में विभाजित करके compiler के बाकी चरणों के लिए आधार तैयार करता है। 2025 में, Lexical Analysis कृत्रिम बुद्धिमत्ता और स्वचालन (Automation) के उपयोग से और अधिक शक्तिशाली बन गया है।
Related Post
- Introduction of Compiler | कंपाइलर का परिचय - Working, Structure, and Importance in Compiler Design
- Major Data Structures in Compiler | कंपाइलर में उपयोग होने वाले प्रमुख डेटा स्ट्रक्चर
- Bootstrapping and Porting in Compiler Design | बूटस्ट्रैपिंग और पोर्टिंग क्या है? कार्य, चरण और उदाहरण सहित
- Compiler Structure: Analysis–Synthesis Model of Compilation | कंपाइलर की संरचना और विश्लेषण-संश्लेषण मॉडल
- Various Phases of a Compiler | कंपाइलर के विभिन्न चरण और उनका कार्य (With Diagram & Examples)
- Lexical Analysis in Compiler Design | लेक्सिकल एनालिसिस क्या है? प्रक्रिया, टोकन, बफरिंग और उदाहरण सहित
- Input Buffering in Compiler Design | इनपुट बफरिंग क्या है? डबल बफरिंग तकनीक और उदाहरण सहित
- Specification and Recognition of Tokens in Compiler Design | टोकन की स्पेसिफिकेशन और पहचान - रेगुलर एक्सप्रेशन एवं फाइनाइट ऑटोमाटा सहित
- LEX in Compiler Design | LEX टूल क्या है? संरचना, कार्यप्रणाली और उदाहरण सहित पूर्ण व्याख्या
- Syntax Analysis and Context-Free Grammars (CFGs) | वाक्य विश्लेषण और संदर्भ-मुक्त व्याकरण - Compiler Design Notes 2025
- Top-Down Parsing (Brute Force & Recursive Descent) | टॉप-डाउन पार्सिंग - सिद्धांत, एल्गोरिथ्म और उदाहरण सहित
- Grammar Transformations and Predictive Parsing | व्याकरण रूपांतरण एवं प्रेडिक्टिव पार्सिंग - Compiler Design Notes 2025
- Bottom-Up Parsing and Operator Precedence Parsing | बॉटम-अप पार्सिंग और ऑपरेटर प्रीसीडेंस पार्सिंग - Compiler Design Notes 2025
- LR Parsers (SLR, LALR, Canonical LR) | एलआर पार्सर्स - सिद्धांत, निर्माण प्रक्रिया और उदाहरण सहित
- Parser Generation | पार्सर निर्माण प्रक्रिया - Compiler Design Notes 2025 (Hindi + English)
- Syntax Directed Definitions (SDD) and Construction of Syntax Trees | सिंटैक्स निर्देशित परिभाषाएँ और सिंटैक्स वृक्ष निर्माण - Compiler Design Notes 2025
- Bottom-Up Evaluation of S-Attributed Definitions | एस-एट्रीब्यूटेड डेफिनिशन्स का बॉटम-अप मूल्यांकन - Compiler Design Notes 2025
- L-Attributed Definitions and Top-Down Translation | एल-एट्रीब्यूटेड डेफिनिशन्स और टॉप-डाउन अनुवाद - Compiler Design Notes 2025
- Bottom-Up Evaluation of Inherited Attributes | इनहेरिटेड एट्रीब्यूट्स का बॉटम-अप मूल्यांकन - Compiler Design Notes 2025
- Recursive Evaluation and Syntax Directed Definition Analysis | रिकर्सिव मूल्यांकन और सिंटैक्स निर्देशित परिभाषा विश्लेषण - Compiler Design Notes 2025
- Type System | टाइप सिस्टम क्या है?
- Specification of Simple Type Checker | सरल टाइप चेकर का विश्लेषण
- Equivalence of Expressions and Types in Compiler Design | कंपाइलर डिज़ाइन में अभिव्यक्तियों और टाइप्स की समानता
- Type Conversion in Compiler Design | कंपाइलर डिज़ाइन में टाइप रूपांतरण
- Overloading of Functions and Operations in Compiler Design | कंपाइलर डिज़ाइन में फ़ंक्शन और ऑपरेशन का ओवरलोडिंग
- Polymorphic Functions in Compiler Design | कंपाइलर डिज़ाइन में बहुरूपी फ़ंक्शन
- Storage Organization in Compiler Design | कंपाइलर डिज़ाइन में स्टोरेज संगठन
- Storage Allocation Strategies in Compiler Design | कंपाइलर डिज़ाइन में स्टोरेज आबंटन रणनीतियाँ
- Parameter Passing in Compiler Design | कंपाइलर डिज़ाइन में पैरामीटर पासिंग
- Dynamic Storage Allocation in Compiler Design | कंपाइलर डिज़ाइन में डायनेमिक स्टोरेज आबंटन
- Symbol Table in Compiler Design | कंपाइलर डिज़ाइन में सिंबल टेबल
- Intermediate Code Generation: Declarations | इंटरमीडिएट कोड जनरेशन में घोषणाएँ
- Intermediate Code Generation: Assignment Statements | इंटरमीडिएट कोड जनरेशन में असाइनमेंट स्टेटमेंट्स
- Intermediate Code Generation: Boolean Expressions | इंटरमीडिएट कोड जनरेशन में बूलियन अभिव्यक्तियाँ
- Intermediate Code Generation: Case Statements | इंटरमीडिएट कोड जनरेशन में केस स्टेटमेंट्स
- Intermediate Code Generation: Backpatching | इंटरमीडिएट कोड जनरेशन में बैकपैचिंग
- Intermediate Code Generation: Procedure Calls | इंटरमीडिएट कोड जनरेशन में प्रोसीजर कॉल्स
- Code Generation: Issues in the Design of Code Generator | कोड जनरेटर के डिज़ाइन में समस्याएँ
- Basic Blocks and Flow Graphs | बेसिक ब्लॉक्स और फ्लो ग्राफ़्स
- Register Allocation and Assignment | रजिस्टर आबंटन और असाइनमेंट
- DAG Representation of Basic Blocks | बेसिक ब्लॉक्स का DAG प्रतिनिधित्व
- Peephole Optimization | पीपहोल ऑप्टिमाइज़ेशन
- Generating Code from DAG | DAG से कोड जनरेशन
- Introduction to Code Optimization | कोड ऑप्टिमाइज़ेशन का परिचय
- Sources of Optimization of Basic Blocks | बेसिक ब्लॉक्स के ऑप्टिमाइज़ेशन के स्रोत
- Loops in Flow Graphs | फ्लो ग्राफ़्स में लूप्स
- Dead Code Elimination | डेड कोड एलिमिनेशन
- Loop Optimization | लूप ऑप्टिमाइज़ेशन
- Introduction to Global Data Flow Analysis | ग्लोबल डेटा फ्लो एनालिसिस का परिचय
- Code Improving Transformations in Compiler Design | कोड सुधार परिवर्तन की उन्नत तकनीकें
- Data Flow Analysis of Structured Flow Graph | स्ट्रक्चर्ड फ्लो ग्राफ का डेटा फ्लो विश्लेषण
- Symbolic Debugging of Optimized Code | ऑप्टिमाइज़्ड कोड का प्रतीकात्मक डीबगिंग