نحوه لود کردن مستقیم داده های kaggle در Google Colab
- دسته:اخبار علمی
- هما کاشفی
اگر در حوزههای یادگیری ماشین و علوم داده کار میکنید، حتماً نام Kaggle را شنیدهاید. Kaggle وب سایتی است که به کاربران این امکان را میدهد تا به دیتاستهای موردنیاز خود در هر حوزهی کاری و تحقیقاتی دست پیدا کنند و حتی دیتاستهای خود را منتشر کنند. میتوانید تقریباً برای هر کاربردی از Kaggle، دیتاست پیدا کنید از صنعت سرگرمی، حوزهی پزشکی، تجارت الکترونیکی تا حتی ستاره شناسی. در این پست، نحوهی لود کردن مستقیم دیتاستهای Kaggle در Google Colab را توضیح میدهیم.
چطور دیتاستهای Kaggle را مستقیماً در Google Colab لود کنیم؟
سایز دیتاستهای Kaggle ممکن است متفاوت باشد. برخی از دیتاستها کوچکتر از 1 MB هستند و یا حجم برخی دیگر به 100 GB میرسد. افرادی که در حوزهی یادگیری عمیق کار میکنند ترجیح میدهند از GPU استفاده کنند. Google Colab پلت فرم مناسبی است که به افراد این امکان را میدهد تا کدهای خود را در محیط ابری تست کنند.
گام اول : انتخاب کردن دیتاست از Kaggle
اولین و مهمترین گام این است که دیتاست مورد نظر خودتان را از وی سایت Kaggle انتخاب کنید. دیتاستهای Kaggle دو نوع هستند: Datasets, Competitions. برای مثال ما دیتاست GTSRB که دیتاست معیار برای تشخیص علائم ترافیکی و چندکلاسه است را انتخاب کردیم.
دیتاست German Traffic Sign Recognition (GTSRB) دیتاستی مربوط به کلاسبندی تصاویر است. تصاویر مربوط به علائم ترافیکی هستند. 43 کلاس مختلف در این دیتاست وجود دارد. مجموعه آموزشی شامل 39209 تصاویر برچسب گذاری شده و مجموعه تست شامل 12630 تصویر است. مجموعه تست، برچسب ندارد.
گام دوم: دانلود API Credentials
برای اینکه بتوانید دیتا را از Kaggle دانلود کنید، باید در سرویس Kaggle احراز هویت کنید. برای این منظور به توکن API نیاز هست. این توکن را میتوانید از بخش profile اکانت Kaggle خودتان تولید کنید. پس ابتدا به بخش profile خود در Kaggle بروید.
همانطور که در شکل نشان داده شده است در بخش API روی create New API Token کلیک کنید. فایلی به نام “Kaggle.json” دانلود خواهد شد که حاوی username و API key است. پس از انجام این کار، اگر بعدها باز هم خواستید از دیتاستهای Kaggle استفاده کنید، دیگر لازم نیست این مراحل را طی کنید و همین یکبار کافی است.
گام سوم: راهاندازی Colab Notebook
در این مرحله باید یک نوت بوک جدید در Google Colab باز کنید و فایل “Kaggle.json” که از Kaggle دانلود کردهاید را آپلود کنید.
حال کافی است تعدادی فرمان که با ! آغاز میشوند را در code cellها اجرا کنید.
- 1- در ابتدا کتابخانهی Kaggle را اینستال کنید
!pip install Kaggle
- 2- یک دایرکتوری به نام .kaggle ایجاد کنید
! mkdir ~/.kaggle
- 3-حال Kaggle.json را در دایرکتوری جدید کپی کنید
!cp Kaggle.json ~/.kaggle/
- 4- permission مورد نیاز را به این فایل اختصاص دهید
!chmod 600 ~/.kaggle/Kaggle.json
حال Colab notebook آماده است که دیتاستها را از Kaggle دانلود کند
4-دانلود دیتاستها
همانطور که گفتیم Kaggle دو نوع دیتاست دارد: Competitions و Datasets. نحوهی دانلود هر دو نوع تقریباً مشابه است و تغییرات اندکی بین آنها وجود دارد.
دانلود Dataset
دیتاستی که برای این پست انتخاب کردیم GTSRB بود و اگر روی لینک دیتاست کلیک کنید، نام اصلی آن را مشخص خواهید کرد.
https://www.kaggle.com/meowmeowmeowmeowmeow/gtsrb-german-traffic-sign
هر آن چیزی که پس از .com/ قرار میگیرد، نام اصلی دیتاست است
meowmeowmeowmeowmeow/gtsrb-german-traffic-sign
از دستور زیر استفاده میکنیم
و به این ترتیب دیتاست ما دانلود خواهد شد
حال اگر دیتاست جز Competitionها باشد باید از دستور زیر استفاده کنیم
برای مثال لینک زیر مربوط به یکی از Kaggle Competitionهاست
https://www.kaggle.com/c/google-smartphone-decimeter-challenge
هر آن چیزی که بعد از /c/ قرار میگیرد را باید به عنوان نام competition در دستور فوق وارد کنیم.
با سلام این قسمت کد یه مشکل کوچیک داره که در ران شدن باعث اختلال میشه
(!cp Kaggle.json ~/.kaggle/). اینجا kaggle.json. رو باید با «k» کوچیک نوشت