Specification and Recognition of Tokens in Compiler Design | टोकन की स्पेसिफिकेशन और पहचान - रेगुलर एक्सप्रेशन एवं फाइनाइट ऑटोमाटा सहित
टोकन की स्पेसिफिकेशन और पहचान (Specification and Recognition of Tokens in Compiler Design)
Tokens कंपाइलर के Lexical Analysis चरण का सबसे मूलभूत तत्व हैं। किसी प्रोग्राम में मौजूद सभी अर्थपूर्ण यूनिट्स (identifiers, keywords, operators, constants, delimiters आदि) को Lexical Analyzer द्वारा पहचानने की प्रक्रिया को Token Recognition कहा जाता है। प्रत्येक token की संरचना (structure) Regular Expression द्वारा परिभाषित की जाती है, जिसे हम Token Specification कहते हैं।
📘 टोकन क्या है?
Token किसी प्रोग्राम का सबसे छोटा अर्थपूर्ण घटक होता है। यह source code को logical रूप से विभाजित करने में मदद करता है। उदाहरण के लिए:
a = b + 10;
यहाँ टोकन्स होंगे:
1️⃣ Identifier (a) 2️⃣ Assignment Operator (=) 3️⃣ Identifier (b) 4️⃣ Arithmetic Operator (+) 5️⃣ Constant (10) 6️⃣ Delimiter (;)
🧩 Token के मुख्य भाग:
- Token Name: Token की श्रेणी (जैसे identifier, number, keyword आदि)।
- Pattern: Token की पहचान के लिए regular expression।
- Lexeme: Source code का वास्तविक substring जो token बनता है।
उदाहरण:
| Token Name | Pattern (Regular Expression) | Lexeme |
|---|---|---|
| ID | Letter(Letter|Digit)* | sum, total |
| NUM | Digit+ | 5, 120 |
| ASSIGN | = | = |
| PLUS | + | + |
⚙️ Token Specification (टोकन की स्पेसिफिकेशन)
Token Specification का उद्देश्य है प्रत्येक token के लिए pattern (या rule) निर्धारित करना। इसके लिए Regular Expressions का उपयोग किया जाता है। यह patterns Lexical Analyzer को यह बताने में मदद करते हैं कि कौन सा substring किस token से मेल खाता है।
सामान्य Token Specifications:
- Identifiers: Letter(Letter|Digit)*
- Numbers: Digit+
- Operators: + | - | * | / | = | ==
- Keywords: if | else | while | for | return
- Delimiters: ( ) { } ; ,
Regular Expressions Example:
Identifier → [a-zA-Z][a-zA-Z0-9]* Number → [0-9]+ Relop → (< | > | <= | >= | == | !=)
🧠 Token Recognition (टोकन की पहचान)
Lexical Analyzer इन patterns को पहचानने के लिए Finite Automata का उपयोग करता है। इस प्रक्रिया में NFA (Non-deterministic Finite Automata) को DFA (Deterministic Finite Automata) में परिवर्तित किया जाता है।
Token Recognition Process:
- Regular Expression को NFA में परिवर्तित करें।
- NFA को DFA में बदलें।
- DFA के माध्यम से input characters को स्कैन करें।
- जैसे ही DFA किसी accepting state में पहुँचता है, एक token पहचान लिया जाता है।
📊 Diagram (Token Recognition using DFA):
Start → (Letter) → ID State → Accept
↘ (Digit) → NUM State → Accept
↘ (+,-,*,/) → Operator State → Accept
📗 Example (Step-by-Step Token Recognition):
Source: a = b + 25;
Step 1️⃣ → 'a' matches pattern [a-zA-Z] → Token(ID)
Step 2️⃣ → '=' matches pattern '=' → Token(ASSIGN)
Step 3️⃣ → 'b' → Token(ID)
Step 4️⃣ → '+' → Token(PLUS)
Step 5️⃣ → '25' matches pattern [0-9]+ → Token(NUM)
Step 6️⃣ → ';' → Token(DELIMITER)
⚙️ Ambiguity in Token Recognition:
कई बार overlapping patterns होने पर ambiguity उत्पन्न होती है। जैसे, “==” और “=” दोनों patterns overlap करते हैं। Lexical Analyzer ऐसे मामलों में Longest Match Rule और Rule Priority का उपयोग करता है।
📘 Lexical Errors in Token Recognition:
- Unknown character → “@”, “#”
- Invalid identifier → “1abc”
- Unterminated string → “Hello
🚀 आधुनिक Lexical Analyzer में Token Recognition (2025):
- 🔹 Machine Learning आधारित Pattern Recognition।
- 🔹 Parallel DFA Traversal for speed।
- 🔹 Error-tolerant tokenizers (auto-correct suggestion)।
- 🔹 Incremental scanning in real-time compilers।
📙 निष्कर्ष:
Token Specification और Recognition Compiler Design की रीढ़ हैं। Regular Expressions से token की पहचान होती है और Finite Automata उन्हें recognize करता है। 2025 में, AI-सक्षम Lexical Analyzers ने token recognition को तेज़, सटीक और error-tolerant बना दिया है।
Related Post
- Introduction of Compiler | कंपाइलर का परिचय - Working, Structure, and Importance in Compiler Design
- Major Data Structures in Compiler | कंपाइलर में उपयोग होने वाले प्रमुख डेटा स्ट्रक्चर
- Bootstrapping and Porting in Compiler Design | बूटस्ट्रैपिंग और पोर्टिंग क्या है? कार्य, चरण और उदाहरण सहित
- Compiler Structure: Analysis–Synthesis Model of Compilation | कंपाइलर की संरचना और विश्लेषण-संश्लेषण मॉडल
- Various Phases of a Compiler | कंपाइलर के विभिन्न चरण और उनका कार्य (With Diagram & Examples)
- Lexical Analysis in Compiler Design | लेक्सिकल एनालिसिस क्या है? प्रक्रिया, टोकन, बफरिंग और उदाहरण सहित
- Input Buffering in Compiler Design | इनपुट बफरिंग क्या है? डबल बफरिंग तकनीक और उदाहरण सहित
- Specification and Recognition of Tokens in Compiler Design | टोकन की स्पेसिफिकेशन और पहचान - रेगुलर एक्सप्रेशन एवं फाइनाइट ऑटोमाटा सहित
- LEX in Compiler Design | LEX टूल क्या है? संरचना, कार्यप्रणाली और उदाहरण सहित पूर्ण व्याख्या
- Syntax Analysis and Context-Free Grammars (CFGs) | वाक्य विश्लेषण और संदर्भ-मुक्त व्याकरण - Compiler Design Notes 2025
- Top-Down Parsing (Brute Force & Recursive Descent) | टॉप-डाउन पार्सिंग - सिद्धांत, एल्गोरिथ्म और उदाहरण सहित
- Grammar Transformations and Predictive Parsing | व्याकरण रूपांतरण एवं प्रेडिक्टिव पार्सिंग - Compiler Design Notes 2025
- Bottom-Up Parsing and Operator Precedence Parsing | बॉटम-अप पार्सिंग और ऑपरेटर प्रीसीडेंस पार्सिंग - Compiler Design Notes 2025
- LR Parsers (SLR, LALR, Canonical LR) | एलआर पार्सर्स - सिद्धांत, निर्माण प्रक्रिया और उदाहरण सहित
- Parser Generation | पार्सर निर्माण प्रक्रिया - Compiler Design Notes 2025 (Hindi + English)
- Syntax Directed Definitions (SDD) and Construction of Syntax Trees | सिंटैक्स निर्देशित परिभाषाएँ और सिंटैक्स वृक्ष निर्माण - Compiler Design Notes 2025
- Bottom-Up Evaluation of S-Attributed Definitions | एस-एट्रीब्यूटेड डेफिनिशन्स का बॉटम-अप मूल्यांकन - Compiler Design Notes 2025
- L-Attributed Definitions and Top-Down Translation | एल-एट्रीब्यूटेड डेफिनिशन्स और टॉप-डाउन अनुवाद - Compiler Design Notes 2025
- Bottom-Up Evaluation of Inherited Attributes | इनहेरिटेड एट्रीब्यूट्स का बॉटम-अप मूल्यांकन - Compiler Design Notes 2025
- Recursive Evaluation and Syntax Directed Definition Analysis | रिकर्सिव मूल्यांकन और सिंटैक्स निर्देशित परिभाषा विश्लेषण - Compiler Design Notes 2025
- Type System | टाइप सिस्टम क्या है?
- Specification of Simple Type Checker | सरल टाइप चेकर का विश्लेषण
- Equivalence of Expressions and Types in Compiler Design | कंपाइलर डिज़ाइन में अभिव्यक्तियों और टाइप्स की समानता
- Type Conversion in Compiler Design | कंपाइलर डिज़ाइन में टाइप रूपांतरण
- Overloading of Functions and Operations in Compiler Design | कंपाइलर डिज़ाइन में फ़ंक्शन और ऑपरेशन का ओवरलोडिंग
- Polymorphic Functions in Compiler Design | कंपाइलर डिज़ाइन में बहुरूपी फ़ंक्शन
- Storage Organization in Compiler Design | कंपाइलर डिज़ाइन में स्टोरेज संगठन
- Storage Allocation Strategies in Compiler Design | कंपाइलर डिज़ाइन में स्टोरेज आबंटन रणनीतियाँ
- Parameter Passing in Compiler Design | कंपाइलर डिज़ाइन में पैरामीटर पासिंग
- Dynamic Storage Allocation in Compiler Design | कंपाइलर डिज़ाइन में डायनेमिक स्टोरेज आबंटन
- Symbol Table in Compiler Design | कंपाइलर डिज़ाइन में सिंबल टेबल
- Intermediate Code Generation: Declarations | इंटरमीडिएट कोड जनरेशन में घोषणाएँ
- Intermediate Code Generation: Assignment Statements | इंटरमीडिएट कोड जनरेशन में असाइनमेंट स्टेटमेंट्स
- Intermediate Code Generation: Boolean Expressions | इंटरमीडिएट कोड जनरेशन में बूलियन अभिव्यक्तियाँ
- Intermediate Code Generation: Case Statements | इंटरमीडिएट कोड जनरेशन में केस स्टेटमेंट्स
- Intermediate Code Generation: Backpatching | इंटरमीडिएट कोड जनरेशन में बैकपैचिंग
- Intermediate Code Generation: Procedure Calls | इंटरमीडिएट कोड जनरेशन में प्रोसीजर कॉल्स
- Code Generation: Issues in the Design of Code Generator | कोड जनरेटर के डिज़ाइन में समस्याएँ
- Basic Blocks and Flow Graphs | बेसिक ब्लॉक्स और फ्लो ग्राफ़्स
- Register Allocation and Assignment | रजिस्टर आबंटन और असाइनमेंट
- DAG Representation of Basic Blocks | बेसिक ब्लॉक्स का DAG प्रतिनिधित्व
- Peephole Optimization | पीपहोल ऑप्टिमाइज़ेशन
- Generating Code from DAG | DAG से कोड जनरेशन
- Introduction to Code Optimization | कोड ऑप्टिमाइज़ेशन का परिचय
- Sources of Optimization of Basic Blocks | बेसिक ब्लॉक्स के ऑप्टिमाइज़ेशन के स्रोत
- Loops in Flow Graphs | फ्लो ग्राफ़्स में लूप्स
- Dead Code Elimination | डेड कोड एलिमिनेशन
- Loop Optimization | लूप ऑप्टिमाइज़ेशन
- Introduction to Global Data Flow Analysis | ग्लोबल डेटा फ्लो एनालिसिस का परिचय
- Code Improving Transformations in Compiler Design | कोड सुधार परिवर्तन की उन्नत तकनीकें
- Data Flow Analysis of Structured Flow Graph | स्ट्रक्चर्ड फ्लो ग्राफ का डेटा फ्लो विश्लेषण
- Symbolic Debugging of Optimized Code | ऑप्टिमाइज़्ड कोड का प्रतीकात्मक डीबगिंग