Advertisement

Pandas क्या है? AI और Machine Learning Beginners के लिए Easy Guide

Pandas एक शक्तिशाली और ओपन-सोर्स Python लाइब्रेरी है, जो Artificial Intelligence (AI) और Machine Learning (ML) में डेटा मैनिपुलेशन और एनालिसिस के लिए व्यापक रूप से उपयोग की जाती है। Pandas डेटा को टेबुलर फॉर्म (जैसे स्प्रेडशीट्स) में हैंडल करने के लिए DataFrames और Series जैसे डेटा स्ट्रक्चर्स प्रदान करता है, जो डेटा प्रीप्रोसेसिंग और फीचर इंजीनियरिंग के लिए ज़रूरी हैं। इस ब्लॉग में, हम Pandas के बेसिक और इंटरमीडिएट कॉन्सेप्ट्स को डीपली एक्सप्लेन करेंगे, जैसे DataFrames, Series, डेटा क्लीनिंग, और डेटा एनालिसिस

इस ब्लॉग का उद्देश्य बिगिनर्स और इंटरमीडिएट लर्नर्स को पंडास के ज़रूरी कॉन्सेप्ट्स सिखाना है, जो AI/ML प्रोजेक्ट्स की नींव रखते हैं। हम हर कॉन्सेप्ट को कोड एग्ज़ाम्पल्स, AI/ML में इसके यूज़ केस, और प्रैक्टिकल टिप्स के साथ कवर करेंगे।

पंडास क्या है? - What is Pandas in Hindi?

Pandas एक Python लाइब्रेरी है, जो डेटा मैनिपुलेशन और एनालिसिस के लिए डिज़ाइन की गई है। इसका पूरा नाम "Python Data Analysis Library" है, और इसे 2008 में Wes McKinney ने डेवलप किया था। पंडास की खासियत यह है कि यह डेटा को आसानी से लोड, प्रोसेस, और एनालाइज़ करने की सुविधा देता है, जो AI और ML में डेटा प्रीप्रोसेसिंग के लिए ज़रूरी है।

Advertisement

Pandas के प्रमुख फीचर्स:

  • DataFrames और Series: टेबुलर और 1D डेटा स्ट्रक्चर्स जो डेटा मैनिपुलेशन को आसान बनाते हैं।
  • डेटा क्लीनिंग: मिसिंग वैल्यूज़, डुप्लिकेट्स, और आउटलायर्स को हैंडल करना।
  • डेटा ट्रांसफॉर्मेशन: डेटा को फ़िल्टर, ग्रुप, और मर्ज करने की क्षमता।
  • इंटीग्रेशन: NumPy, Matplotlib, और Scikit-learn के साथ आसान इंटीग्रेशन।

AI/ML में यूज़ केस: Pandas का उपयोग डेटा प्रीप्रोसेसिंग (जैसे मिसिंग वैल्यूज़ हैंडल करना), फीचर इंजीनियरिंग, और डेटा एनालिसिस (जैसे स्टैटिस्टिकल कैलकुलेशन्स) के लिए होता है।

पंडास सेटअप - Pandas Setup in Hindi

पंडास के साथ AI/ML शुरू करने के लिए सबसे पहले इसे इंस्टॉल करना ज़रूरी है।

Advertisement

1. Pandas इंस्टॉलेशन - Installation

  • कमांड: टर्मिनल या कमांड प्रॉम्प्ट में निम्नलिखित कमांड रन करें:

pip install pandas
  • वेरिफिकेशन: Python में पंडास इंपोर्ट करके चेक करें:

import pandas as pd
print("Pandas Version:", pd.__version__)

आउटपुट:

Pandas Version: 2.0.3

2. एनवायरनमेंट सेटअप - Environment Setup

  • Jupyter Notebook: Pandas के साथ डेटा एनालिसिस और विज़ुअलाइज़ेशन के लिए बेस्ट।
  • Anaconda: Pandas प्री-इंस्टॉल्ड आता है।
  • VS Code: Pandas कोड लिखने और टेस्ट करने के लिए उपयुक्त।

AI/ML में यूज़: Pandas का यूज़ डेटा प्रीप्रोसेसिंग और ML मॉडल्स के लिए डेटासेट्स तैयार करने में होता है।

पंडास के बेसिक कॉन्सेप्ट्स - Basic Concepts of Pandas in Hindi

1. Series और DataFrames

पंडास में दो मुख्य डेटा स्ट्रक्चर्स हैं: Series (1D डेटा) और DataFrame (2D टेबुलर डेटा)।

कोड एग्ज़ाम्पल: Series और DataFrame बनाना।

import pandas as pd
# Creating a series
features = pd.Series([1.5, 2.3, 3.1, 4.7])
print("Series:\n", features)

# Create a DataFrame
data = {'Feature1': [1, 2, 3], 'Feature2': [4.5, 5.5, 6.5]}
df = pd.DataFrame(data)
print("\nDataFrame:\n", df)

आउटपुट:

Series:
 0    1.5
1    2.3
2    3.1
3    4.7
dtype: float64

DataFrame:
    Feature1  Feature2
0        1      4.5
1        2      5.5
2        3      6.5

AI/ML में यूज़: Series का यूज़ सिंगल कॉलम डेटा (जैसे लेबल्स) और DataFrame का यूज़ डेटासेट्स (जैसे फीचर्स और लेबल्स) को स्टोर करने के लिए होता है।

2. डेटा क्लीनिंग - Data Cleaning

पंडास डेटा क्लीनिंग के लिए कई टूल्स प्रदान करता है, जैसे मिसिंग वैल्यूज़ को हैंडल करना और डुप्लिकेट्स हटाना।

कोड एग्ज़ाम्पल: मिसिंग वैल्यूज़ को हैंडल करना।

import pandas as pd

# Missing values in the DataFrame
data = {'Feature1': [1, None, 3], 'Feature2': [4.5, 5.5, None]}
df = pd.DataFrame(data)
print("Original DataFrame:\n", df)

# Filling missing values with the mean
df['Feature1'].fillna(df['Feature1'].mean(), inplace=True)
df['Feature2'].fillna(df['Feature2'].mean(), inplace=True)
print("\nCleaned DataFrame:\n", df)

आउटपुट:

Original DataFrame:
 Feature1  Feature2
0      1.0      4.5
1      NaN      5.5
2      3.0      NaN

Cleaned DataFrame:
 Feature1  Feature2
0      1.0      4.5
1      2.0      5.5
2      3.0      5.0

AI/ML में यूज़: डेटा क्लीनिंग का यूज़ ML मॉडल्स को सटीक और रिलायबल डेटा प्रदान करने के लिए होता है।

3. डेटा मैनिपुलेशन - Data Manipulation

पंडास डेटा को फ़िल्टर, ग्रुप, और मर्ज करने के लिए टूल्स प्रदान करता है।

कोड एग्ज़ाम्पल: डेटा फ़िल्टरिंग और ग्रुपिंग।

# Create a DataFrame
data = {'Name': ['Model1', 'Model2', 'Model3'], 'Accuracy': [85, 90, 88]}
df = pd.DataFrame(data)

# Filtering
high_accuracy = df[df['Accuracy'] > 85]
print("High Accuracy Models:\n", high_accuracy)

# Grouping
mean_accuracy = df['Accuracy'].mean()
print("\nMean Accuracy:", mean_accuracy)

आउटपुट:

High Accuracy Models:
  Name  Accuracy
1  Model2        90
2  Model3        88

Mean Accuracy: 87.66666666666667

AI/ML में यूज़: डेटा मैनिपुलेशन का यूज़ फीचर सिलेक्शन और डेटा एनालिसिस में होता है।

4. डेटा मर्जिंग - Data Merging

पंडास अलग-अलग डेटासेट्स को मर्ज करने के लिए टूल्स देता है, जो ML में मल्टीपल सोर्स से डेटा इंटीग्रेट करने के लिए उपयोगी है।

कोड एग्ज़ाम्पल: DataFrames मर्ज करना।

# Two DataFrames
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Feature1': [10, 20, 30]})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Feature2': [4.5, 5.5, 6.5]})

# Merge
merged_df = pd.merge(df1, df2, on='ID', how='inner')
print("Merged DataFrame:\n", merged_df)

आउटपुट:

Merged DataFrame:
    ID  Feature1  Feature2
0   1        10      4.5
1   2        20      5.5

AI/ML में यूज़: मर्जिंग का यूज़ मल्टीपल डेटासेट्स (जैसे ट्रेनिंग और टेस्ट डेटा) को कंबाइन करने के लिए होता है।

AI और ML में पंडास के फायदे - Advantages of Pandas in AI & ML in Hindi

  • यूज़र-फ्रेंडली: पंडास का इंटरफेस सरल और स्प्रेडशीट जैसा है।
  • डेटा क्लीनिंग: मिसिंग वैल्यूज़ और डुप्लिकेट्स को आसानी से हैंडल करता है।
  • फ्लेक्सिबिलिटी: डेटा को फ़िल्टर, ग्रुप, और ट्रांसफॉर्म करने के लिए कई टूल्स।
  • इंटीग्रेशन: NumPy और Matplotlib के साथ आसानी से काम करता है

AI और ML में पंडास के यूज़ केस - Use Cases of Pandas in AI & ML in Hindi

  • डेटा प्रीप्रोसेसिंग: मिसिंग वैल्यूज़, आउटलायर्स, और डुप्लिकेट्स को हैंडल करना।
  • फीचर इंजीनियरिंग: डेटा से नए फीचर्स बनाना, जैसे नॉर्मलाइज़ेशन।
  • डेटा एनालिसिस: डेटा के स्टैटिस्टिकल प्रॉपर्टीज़ (जैसे मीन, मीडियन) निकालना।
  • डेटा विज़ुअलाइज़ेशन: Matplotlib के साथ डेटा प्लॉटिंग।

मिनी प्रोजेक्ट आइडिया: एक डेटासेट पर बेसिक एनालिसिस करने का प्रोग्राम लिखें, जो मीन और मैक्सिमम वैल्यूज़ निकाले।

# Mini Project: Dataset Analysis
import pandas as pd

# Dataset
data = {'Model': ['Model1', 'Model2', 'Model3'], 'Accuracy': [85, 90, 88]}
df = pd.DataFrame(data)

# Basic Analysis
mean_accuracy = df['Accuracy'].mean()
max_accuracy = df['Accuracy'].max()
print("Mean Accuracy:", mean_accuracy)
print("Max Accuracy:", max_accuracy)

आउटपुट:

Mean Accuracy: 87.66666666666667
Max Accuracy: 90

पंडास में बेस्ट प्रैक्टिसेज - Best Practices in Pandas in Hindi

  1. क्लीन कोड: डिस्क्रिप्टिव कॉलम नेम्स और कमेंट्स यूज़ करें।
  2. मेमोरी मैनेजमेंट: बड़े डेटासेट्स के लिए डेटा टाइप्स ऑप्टिमाइज़ करें (जैसे float32).
  3. डॉक्यूमेंटेशन: कोड में कमेंट्स और डिस्क्रिप्टिव नेम्स जोड़ें।
  4. प्रैक्टिस: Kaggle डेटासेट्स पर पंडास प्रोजेक्ट्स करें।

निष्कर्ष - Conclusion

Pandas एक शक्तिशाली लाइब्रेरी है जो AI और ML में डेटा मैनिपुलेशन और एनालिसिस को आसान बनाती है। इस ब्लॉग में हमने पंडास के बेसिक कॉन्सेप्ट्स जैसे Series, DataFrames, डेटा क्लीनिंग, और डेटा मर्जिंग को डीपली एक्सप्लेन किया, साथ ही AI/ML में उनके यूज़ केस को भी कवर किया।

अगले ब्लॉग्स में हम Matplotlib, Scikit-learn, और अन्य AI/ML लाइब्रेरीज को डीपली एक्सप्लोर करेंगे, और प्रैक्टिकल एप्लिकेशन्स को समझाएँगे। प्रैक्टिस शुरू करें और अपने AI/ML प्रोजेक्ट्स में पंडास का उपयोग करें!

Also Read: 

Table of Contents

Close

Comments

Share to other apps

Report Content

Why are you reporting this content?

Your selection helps us review the content and take appropriate action.

Hate & Discrimination
Content that spreads hate or unfair treatment against a person or group because of who they are.
Abuse & Harassment
Content that insults, threatens, bullies, or makes someone uncomfortable.
Violence & Threats
Content that talks about hurting people, animals, or property, or supports violence.
Child Safety
Any content that harms, exploits, or puts children at risk.
Privacy Violation
Sharing someone’s personal information or photos without permission.
Illegal & Regulated Activities
Content that promotes or helps with illegal activities like drugs, weapons, or trafficking.
Spam & Misleading Content
Fake, misleading, or repeated content meant to trick users.
Suicide or Self-Harm
Content that encourages or explains self-harm or suicide.
Sensitive or Disturbing Content
Shocking or graphic content that may upset users.
Impersonation
Pretending to be another person or organization.
Extremism & Hate Groups
Content that supports violent groups or hateful ideas.
Civic Integrity
Content that spreads false information about elections or public processes.