خواندن داده‌ با فرمتهای مختلف در پایتون

در هر پروژه‌ی یادگیری ماشین، در ابتدا لازم هست که داده را با کمک ابزاری خوانده و وارد محیط برنامه نویسی پایتون بکنیم. در پایتون کتابخانه های مختلفی هست که میتوانیم با کمکشون داده به فرمتهای مختلف را بخوانیم. در این پست توضیح میدهیم که چطور متیوان با استفاده از کتابخانه هایی نظیر NumPy، Pandas و SciPy داده به فرمتهای مختلف را وارد محیط برنامه نویسی پایتون کرد.

خواندن فایل تسکت (.txt) با کمک کتابخانه NumPy

برای خواندن یک فایل تکست از تابع زیر استفاده می‌کنیم. اسم فایل و مسیر را مشخص می‌کنیم و به تابع loadtxt میدهیم تا فایل را بخواند.

Python

import numpy as np
filename =r'iris.txt'
dataset= np.loadtxt(filename,delimiter='\t')

ورودی delimiter مشخص می‌کند که مقادیر هر سطر در فایل تکست به چه صورت از هم جدا شده اند. از آنجا که در فایل ما مقادیر در هر سطر با tap از هم جدا شده اند برای همین t\ در نظر گرفتیم.

خواندن فایل txt با پانداس

نکته: تابع numpy.loadtxt فایل تسکت را خوانده و در یک آرایه نامپای قرار میدهد. اگر فایل تسکت حاوی متن و اعداد باشه خطا خواهد داد. چرا که ما در یک آرایه نامپای مقادیر از یک نوع را قرار میدهیم. پس همگی یا باید مقادیر عددی یا رشته ای باشند.

اگر فایل در جایی متفاوت با کد باشد، قبل اسم فایل مسیر رو هم مشخص می‌کنیم.

filename= r'C:\onlinebme\PyTorch\season03-Datasets and dataloaders\iris.txt'

خواندن فایل تسکت (.txt) با کمک کتابخانه Pandas

برای خواندن فایل تکست با کمک کتابخانه pandas به شکل زیر عمل می‌کنیم:

Python

import pandas as pd
filename= 'iris.txt'
df= pd.read_csv(filename,sep='\t',header=None)

ورودی sep مشخص می‌کند که مقادیر هر سطر فایل تکست به چه صورت از هم جدا شده اند.

برای اینکه متوجه بشیم که ورودی header را چی در نظر بگیریم، بهتره اول با ساختار داده در پانداس آشنا شویم. از دید پانداس قالب داده (data frame) به شکل زیر است.

قالب داده در پانداس

یک data frame از جدولی از مقادیر تشکیل شده است که این مقادیر هر مجموعه در هر ستون قرار گرفته است. برای مثال در بحث یادگیری ماشین میتونیم بگیم اطلاعات هر ویژگی در هر ستون قرار گرفته است. به عبارتی تعداد سطرها تعداد نمونه ها را مشخص می‌کند و تعداد ستونها تعداد ویژگی ها را. باز بستگی دارد که در فایل تسکت شما محتوا به چه صورت قرار گرفته باشد.

هر ستون یک اسمی دارد که با آن هم میتوان به محتوای هر ستون دسترسی پیدا کرد. برای دسترسی به سطرها هم کافیه آدرس اندیسی آنها را مشخص کنیم.

ورودی header مشخص می‌کند که سطر اول مشخص کننده چی هست، اگر header را مشخص نکنیم و یا ‘infer’ تعریف کنیم، در این صورت سطر اول مقادیرش هرچی باشد، به عنوان اسم هر ستون در نظر گرفته خواهد شد. از اونجا که در داده ما اسمی برای ستونها مشخص نشده، پس ما header را None در نظر می‌گیریم تا سطر اول رو به عنوان اسم ستونها در نظر گرفته نشود.

به شکل زیر می‌توانیم از داخل data frame محتوا را جدا کنیم.

Python

data= df.iloc[:,:-1].to_numpy()
label= df.iloc[:,-1].to_numpy()

خواندن فایل .data با کمک کتابخانه Pandas

خواندن فایل .data دقیقا مثل فایل txt است.

Python

import pandas as pd
filename= 'iris.data
df= pd.read_csv(filename,sep='\t',header=None)

خواندن فایل اکسل (.xlsx) با کمک کتابخانه Pandas

برای خواندن فایل اکس با پانداس از تابع زیر استفاده می‌کنیم.

Python

import pandas as pd
filename= r'iris\iris.xlsx'
df= pd.read_excel(filename,header=None)

اگر سطر اول فایل اکسل شما، مربوط به اسم ستون‌ها است، در اینصورت header را یا تعریف نکنید و یا صفر قرار دهید.

خواندن فایل .mat با کمک کتابخانه SciPy

برای اینکه بتوانیم درک کنیم که چطور یک فایل .mat را میتوان وارد محیط پایتون کرد، لازم است اول بدانیم که داخل فایل .mat چه مقادیری و به چه صورت قرار گرفته اند.

در داخل فایل .mat یک دیکشنری هست که شامل یه سری key-value ها است. به عبارتی آرایه‌های نامپای یا متلب، با اسم مشخص در داخل یک دیکشنری قرار گرفته اند.

ما بعد از لود کردن فایل، به یک دیکشنری دسترسی خواهیم داشت که کافیه اسم کلید را بدهیم، و به مقادیر آرایه مد نظر دسترسی داشته باشیم.

با کمک ماژول io (input-output) کتابخانه SciPy میتوانیم فایل .mat را بخوانیم.

Python

from scipy import io
filename= r'iris\iris.mat'
dic= io.loadmat(filename)

features= dic['data']
target= dic['label']

از اونجا که در داخل فایل .mat دو تا آرایه به اسم data و label ذخیره شده بود، برای همین از داخل دیکشنری اون آرایه ها را ورمیداریم. برای اینکه بدونیم داخل یک دیکشنری چه فایلهایی هست، میتونیم به این شکل عمل کنیم.

Python

ds.keys()
dict_keys(['__header__', '__version__', '__globals__', 'data', 'label'])

اونایی که بدون ___ هستند، اسم کلید آرایه هایی هست که داخل فایل قرار گرفته است.

بعد از اینکه داده ها را خواندیم آنها را میتوانیم در تنسورهای پایتورچ قرار دهیم و سپس شبکه های عصبی را روی آنها اعمال کنیم. در پست “تفاوت تنسورهای PyTorch با آرایه های NumPy” نحوه تبدیل آرایه های NumPy به تنسورهای PyTorch را توضیح داده ایم.

دوره های مرتبط

دوره پردازش سیگنال قلبی ECG

دوره پردازش سیگنال ECG یک دوره کاملا پروژه محور است و در آن روشهای پردازش سیگنال ECG به صورت گام به گام آموزش داده شده و در پایتون پیاده سازی می شوند. در فصل اول انواع داده ها معرفی شده…

محمد نوری زاده چرلو

1403-04-28

پردازش سیگنال مغزی با کتابخانه MNE پایتون

برای پردازش و کار با سیگنال EEG (سیگنال مغزی الکتروانسفالوگرافی) در محیط برنامه‌نویسی پایتون، راه‌های مختلفی پیش روی شماست. می‌توانید مراحل پردازش را خودتان با توابع و کتابخانه‌های موجود انجام دهید. علاوه بر این‌ها پایتون، پکیج‌هایی برای پردازش و کار…

هما کاشفی

1403-02-07

پیاده‌سازی شبکه های عصبی با پایتورچ PyTorch

پایتورچ (PyTorch) یک فریم ورک یادگیری ماشین متن باز است که به دلیل انعطاف پذیری، سهولت استفاده و قابلیت های محاسباتی کارآمد، محبوب ترین کتابخانه برای محققان هوش مصنوعی در سراسر جهان است. در این دوره تخصصی، یاد می‌گیریم که…

محمد نوری زاده چرلو

1402-12-06

برنامه نویسی شیء گرا در پایتون Python

برنامه نویسی شئی گرا یک نوع الگوی برنامه نویسی است که از کلاس ها و اشیاء در برنامه نویسی استفاده می‌کند. پایتون یک زبان برنامه نویسی مبتنی بر شیء گرا هست و میشود گفت که تقریبا همه چیز در پایتون…

محمد نوری زاده چرلو

1402-06-05

کتابخانه NumPy و matplotlib در پایتون

کتابخانه های NumPy و matplotlib دو کتابخانه معروف و بسیار پرکاربرد در پایتون هستند. NumPy یک بسته نرم‌افزاری قابل افزودن به پایتون است که کاربرد اصلی‌اش در مقاصد علمی و برای کار با اعداد است. تقریبا در همه زمینه‌های علمی…

محمد نوری زاده چرلو

1402-04-30

اصول برنامه نویسی پایتون Python

پایتون یک زبان برنامه‌نویسی سطح بالا هست و به خاطر قابلیتهای مهمی که دارد، امروزه محبوبیت زیاید در جامعه علمی پیدا کرده است و میلیونها نفر در سراسر جهان از این زبان برنامه نویسی استفاده می‌کنند و هر روز به…

محمد نوری زاده چرلو

1402-02-20

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

2 دیدگاه

ناشناس 2 سال پیش

با سلام
در خط اول که می فرمائید ” اسم فایل و مسیر را مشخص می‌کنیم” چگونه اینکار را انجام می دهید. لطفا توضیح دهید . ممنونم
- محمد نوری زاده چرلو 2 سال پیش
  
  سلام
  همون اوایل یک نمونه مثال آوردیم که چطور میشه مسیر و اسم فایل رو مشخص کرد:
  filename= r’C:\onlinebme\PyTorch\season03-Datasets and dataloaders\iris.txt’
  در این مثال، اول مسیری که فایل تکست قرار داره رو کامل مشخص کردیم، بعدش در انتها هم اسم فایل به هم فرمتش رو مشخص کردیم. بقیه هم دقیقا به همین طور هست.

خواندن داده‌ با فرمتهای مختلف در پایتون

خواندن فایل تسکت (.txt) با کمک کتابخانه NumPy

خواندن فایل تسکت (.txt) با کمک کتابخانه Pandas

خواندن فایل .data با کمک کتابخانه Pandas

خواندن فایل اکسل (.xlsx) با کمک کتابخانه Pandas

خواندن فایل .mat با کمک کتابخانه SciPy

دوره های مرتبط

دوره پردازش سیگنال قلبی ECG

پردازش سیگنال مغزی با کتابخانه MNE پایتون

پیاده‌سازی شبکه های عصبی با پایتورچ PyTorch

برنامه نویسی شیء گرا در پایتون Python

کتابخانه NumPy و matplotlib در پایتون

اصول برنامه نویسی پایتون Python

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

2 دیدگاه

سبد خرید