نحوه لود کردن مستقیم داده های kaggle در Google Colab


اگر در حوزه‌های یادگیری ماشین و علوم داده کار می‌کنید، حتماً نام Kaggle را شنیده‌اید.  Kaggle وب سایتی است که به کاربران این امکان را می‌دهد تا به دیتاست‌های موردنیاز خود در هر حوزه‌ی کاری و تحقیقاتی دست پیدا کنند و حتی دیتاست‌های خود را منتشر کنند.  می‌توانید تقریباً برای هر کاربردی از Kaggle، دیتاست پیدا کنید از صنعت سرگرمی، حوزه‌ی پزشکی، تجارت الکترونیکی تا حتی ستاره شناسی. در این پست، نحوه‌ی لود کردن مستقیم دیتاست‌های Kaggle در Google Colab را توضیح می‌دهیم.

چطور دیتاست‌های Kaggle را مستقیماً در Google Colab لود کنیم؟

سایز دیتاست‌های Kaggle ممکن است متفاوت باشد. برخی از دیتاست‌ها کوچکتر از 1 MB هستند و یا حجم برخی دیگر به 100 GB می‌رسد. افرادی که در حوزه‌ی یادگیری عمیق کار می‌کنند ترجیح می‌دهند از GPU استفاده کنند. Google Colab پلت فرم مناسبی است که به افراد این امکان را می‌دهد تا کدهای خود را در محیط ابری تست کنند.

 

گام اول : انتخاب کردن دیتاست از Kaggle

اولین و مهم‌ترین گام این است که دیتاست مورد نظر خودتان را از وی سایت Kaggle انتخاب کنید. دیتاست‌های Kaggle دو نوع هستند: Datasets, Competitions. برای مثال ما دیتاست GTSRB که دیتاست معیار برای تشخیص علائم ترافیکی و چندکلاسه است را انتخاب کردیم.

دیتاست German Traffic Sign Recognition (GTSRB)

دیتاست German Traffic Sign Recognition (GTSRB) دیتاستی مربوط به کلاسبندی تصاویر است. تصاویر مربوط به علائم ترافیکی هستند. 43 کلاس مختلف در این دیتاست وجود دارد. مجموعه آموزشی شامل 39209 تصاویر برچسب گذاری شده و مجموعه تست شامل 12630 تصویر است. مجموعه تست، برچسب ندارد.

دیتاست German Traffic Sign Recognition (GTSRB)

گام دوم: دانلود API Credentials

برای اینکه بتوانید دیتا را از Kaggle دانلود کنید، باید در سرویس Kaggle احراز هویت کنید. برای این منظور به توکن API نیاز هست. این توکن را می‌توانید از بخش profile اکانت Kaggle خودتان تولید کنید. پس ابتدا به بخش profile خود در Kaggle بروید.

دانلود API Credentials

همانطور که در شکل نشان داده شده است در بخش API روی create New API Token کلیک کنید. فایلی به نام “Kaggle.json” دانلود خواهد شد که حاوی username و API key است. پس از انجام این کار، اگر بعدها باز هم خواستید از دیتاست‌های Kaggle استفاده کنید، دیگر لازم نیست این مراحل را طی کنید و همین یکبار کافی است.

 

گام سوم: راه‌اندازی Colab Notebook

در این مرحله باید یک نوت بوک جدید در Google Colab باز کنید و فایل “Kaggle.json” که از Kaggle دانلود کرده‌اید را آپلود کنید.

راه‌اندازی Colab Notebook

حال کافی است تعدادی فرمان که با ! آغاز می‌شوند را در code cellها اجرا کنید.

  • 1- در ابتدا کتابخانه‌ی Kaggle را اینستال کنید

!pip install Kaggle

  • 2- یک دایرکتوری به نام .kaggle ایجاد کنید

! mkdir ~/.kaggle

  • 3-حال Kaggle.json را در دایرکتوری جدید کپی کنید

!cp Kaggle.json ~/.kaggle/

  • 4- permission مورد نیاز را به این فایل اختصاص دهید

!chmod 600 ~/.kaggle/Kaggle.json

راه‌اندازی Colab Notebook

حال Colab notebook آماده است که دیتاست‌ها را از Kaggle دانلود کند

4-دانلود دیتاست‌ها

همانطور که گفتیم Kaggle دو نوع دیتاست دارد: Competitions و Datasets. نحوه‌ی دانلود هر دو نوع تقریباً مشابه است و تغییرات اندکی بین آنها وجود دارد.

دانلود Dataset

دیتاستی که برای این پست انتخاب کردیم GTSRB بود و اگر روی لینک دیتاست کلیک کنید، نام اصلی آن را مشخص خواهید کرد.

https://www.kaggle.com/meowmeowmeowmeowmeow/gtsrb-german-traffic-sign

هر آن چیزی که پس از .com/ قرار می‌گیرد، نام اصلی دیتاست است

meowmeowmeowmeowmeow/gtsrb-german-traffic-sign

از دستور زیر استفاده می‌کنیم

چطور دیتاست‌های Kaggle را مستقیماً در Google Colab لود کنیم

و به این ترتیب دیتاست ما دانلود خواهد شد

چطور دیتاست‌های Kaggle را مستقیماً در Google Colab لود کنیم

حال اگر دیتاست جز Competitionها باشد باید از دستور زیر استفاده کنیم

چطور دیتاست‌های Kaggle را مستقیماً در Google Colab لود کنیم

برای مثال لینک زیر مربوط به یکی از Kaggle Competitionهاست

https://www.kaggle.com/c/google-smartphone-decimeter-challenge

هر آن چیزی که بعد از /c/ قرار می‌گیرد را باید به عنوان نام competition در دستور فوق وارد کنیم.


دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

code