Reading Data in R | R में डेटा पढ़ना


R में डेटा पढ़ना (Reading Data in R)

परिचय

डेटा साइंस में सबसे पहला और महत्वपूर्ण कार्य होता है — डेटा को पढ़ना (Reading Data)। R प्रोग्रामिंग भाषा में डेटा पढ़ने के लिए कई शक्तिशाली फ़ंक्शन्स और पैकेज उपलब्ध हैं जो विभिन्न फ़ाइल प्रारूपों (File Formats) जैसे CSV, Excel, JSON, TXT, XML आदि को आसानी से इंपोर्ट कर सकते हैं।

डेटा को सही ढंग से पढ़ना और समझना किसी भी विश्लेषण का आधार होता है। यदि डेटा गलत तरीके से पढ़ा गया, तो उसके बाद की सारी गणनाएँ और निष्कर्ष भी गलत हो सकते हैं। R की विशेषता यह है कि यह लगभग हर प्रकार के डेटा स्रोत — चाहे लोकल हो या ऑनलाइन — से डेटा पढ़ सकता है।

1️⃣ R में डेटा पढ़ने के सामान्य तरीके

  • read.table()
  • read.csv()
  • read.delim()
  • readLines()
  • scan()
  • readRDS()

उदाहरण: CSV फ़ाइल पढ़ना

data <- read.csv('data.csv')
head(data)

Delimiter बदलना

यदि आपकी CSV फ़ाइल में “;” या “|” जैसा अलग सेपरेटर हो, तो `read.delim()` या `read.table()` का उपयोग किया जा सकता है।

data <- read.table('data.txt', sep='|', header=TRUE)

2️⃣ Excel फ़ाइल पढ़ना

Excel फ़ाइलों को पढ़ने के लिए R में readxl और openxlsx पैकेज का उपयोग किया जाता है।

install.packages('readxl')
library(readxl)

data <- read_excel('students.xlsx', sheet = 1)
head(data)

यदि आपकी Excel फ़ाइल में एक से अधिक शीट्स हैं, तो `sheet` पैरामीटर से चयन किया जा सकता है।

3️⃣ टेक्स्ट फ़ाइल पढ़ना (TXT Files)

टेक्स्ट फ़ाइल पढ़ने के लिए `readLines()` और `scan()` फ़ंक्शन बहुत उपयोगी हैं।

# Using readLines
lines <- readLines('notes.txt')
print(lines)

# Using scan
numbers <- scan('numbers.txt')
print(numbers)

4️⃣ JSON फ़ाइल पढ़ना

JSON (JavaScript Object Notation) फ़ाइलें API और वेब डेटा के लिए प्रचलित हैं। R में `jsonlite` पैकेज का उपयोग किया जाता है।

install.packages('jsonlite')
library(jsonlite)

data <- fromJSON('data.json')
View(data)

5️⃣ XML फ़ाइल पढ़ना

XML फ़ाइलें भी स्ट्रक्चर्ड डेटा के लिए उपयोगी होती हैं। R में `xml2` पैकेज इसके लिए प्रयोग किया जाता है।

install.packages('xml2')
library(xml2)

xml_file <- read_xml('records.xml')
as_list(xml_file)

6️⃣ डेटाबेस से डेटा पढ़ना

R विभिन्न डेटाबेस जैसे MySQL, PostgreSQL, SQLite से सीधे डेटा पढ़ सकता है। इसके लिए `DBI` और `RMySQL` जैसे पैकेज उपयोग किए जाते हैं।

install.packages('DBI')
install.packages('RMySQL')
library(DBI)

con <- dbConnect(RMySQL::MySQL(),
                 dbname='company',
                 host='localhost',
                 user='root',
                 password='1234')

data <- dbGetQuery(con, 'SELECT * FROM employees')
dbDisconnect(con)

7️⃣ वेब से डेटा पढ़ना (Reading Data from Web)

R में आप किसी URL से सीधे डेटा पढ़ सकते हैं:

url <- 'https://raw.githubusercontent.com/datasets/covid-19/master/data/countries-aggregated.csv'
data <- read.csv(url)
head(data)

8️⃣ RDS फ़ाइल पढ़ना

R में ऑब्जेक्ट्स को `.rds` फ़ॉर्मेट में सेव किया जा सकता है, और बाद में उन्हें वापस पढ़ा जा सकता है।

# Save data
saveRDS(data, 'mydata.rds')

# Read data
mydata <- readRDS('mydata.rds')

9️⃣ डेटा पढ़ते समय सामान्य पैरामीटर्स

पैरामीटरअर्थ
fileफ़ाइल का नाम या पाथ
headerक्या पहली पंक्ति कॉलम नाम है?
sepसेपरेटर (जैसे ',', ';' या '|')
stringsAsFactorsचरित्र डेटा को फ़ैक्टर में बदलना है या नहीं
na.stringsMissing values को दर्शाने के लिए

10️⃣ Missing Values को संभालना

data <- read.csv('sales.csv', na.strings = c('', 'NA', 'NULL'))
summary(data)

11️⃣ डेटा की शुरुआती जाँच

head(data)
tail(data)
str(data)
summary(data)
nrow(data)
ncol(data)

12️⃣ वास्तविक उदाहरण

data <- read.csv('students.csv')
print('पहले पाँच रिकॉर्ड:')
head(data)
print('कॉलम नाम:')
colnames(data)

13️⃣ डेटा इंपोर्ट विज़ार्ड (RStudio Feature)

RStudio में “Import Dataset” ऑप्शन के जरिए GUI से भी डेटा इंपोर्ट किया जा सकता है, जो शुरुआती उपयोगकर्ताओं के लिए बहुत उपयोगी है।

14️⃣ डेटा इंपोर्ट के दौरान सावधानियाँ

  • फ़ाइल का पाथ सही होना चाहिए।
  • एन्कोडिंग (Encoding) जैसे UTF-8 या ANSI का ध्यान रखें।
  • Missing values को उचित तरीके से हैंडल करें।
  • डेटा इंपोर्ट करने के बाद हमेशा `str()` और `summary()` से जाँच करें।

15️⃣ निष्कर्ष

R में डेटा पढ़ना विश्लेषण की पहली और सबसे महत्वपूर्ण प्रक्रिया है। चाहे डेटा लोकल फ़ाइल से हो, Excel से, डेटाबेस से या वेब से — R हर प्रकार के डेटा स्रोत को संभाल सकता है। यदि डेटा को सही और स्वच्छ रूप में पढ़ लिया गया, तो आगे का विश्लेषण अधिक सटीक और विश्वसनीय बनता है।

Related Post