برای کاهش overfitting و underfitting کدام روش یادگیری جمعی استفاده کنیم؟

underfitting و overfitting مدل از چالشهای اساسی مهندسین در پروژه های یادگیری ماشین هست و همیشه سعی میکنیم به نوعی از overfit و یا underfit شدن مدل جلوگیری کنیم. در این بخش توضیح میدهیم که چطور میتوان با کمک تکنیکهای یادگیری جمعی بایاس و واریانس یک مدل را کاهش داد!

چالش آموزش الگوریتمهای یادگیری ماشین

ما معمولا در پروژه های یادگیری ماشین وقتی از یک مدل برای حل مسئله استفاده میکنیم با دو تا چالش اساسی روبرو می‌شویم. ممکن است در پروسه آموزش مدل underfit یا overfit شود! که هیچ کدام خوب نیستند! وقتی یکی از اینها اتفاق بیافتد نتیجه اش این میشه که مدل مسئله رو به خوبی نمیتواند حل کند. بحث underfitting و overfitting مرتبط است به بایاس و واریانس مدل!

فرق بین overfitting و underfitting

بایاس مدل

بایاس میزان خطای مدل را مشخص می‌کند. به عبارتی میزان اختلاف بین خروجی واقعی و خروجی تخمین زده شده توسط مدل را مشخص می‌کند. هرچقدر بایاس مدل زیاد باشه معنیش اینه که خطاش زیاد است و هرچقدر کمتر یعنی میزان خطا کمتر است. وقتی مدل underfit بشود، بایاس مدل افزایش می یابد. اصطلاح underfitting را زمانی به کار میبریم که مدل به خوبی نتواند یاد بگیرد. ممکن است مدلی که برای حل مسئله استفاده کرده‌ایم، توان حل مسئله را نداشته باشد. مثلا مرز داده‌ها غیرخطی است ولی ما از یک مدل ساده که میتواند مرز خطی پیدا کند استفاده کنیم.

مفهوم بایاس در یادگیری ماشین

در مثال رگرسیون بالا، نشان داده شده است که بایاس مدل استفاده شده زیاد است. به این دلیل که رابطه بین ورودی و خروجی غیرخطی است، ولی مدلی که استفاده کرده ایم خطی است و توان حل یک مسئله غیرخطی را ندارد. در نتیجه خروجی تخمین زده شده توسط این مدل خروجی مناسبی نیست و با مقادیر واقعی اختلاف زیادی دارد. در چنین شرایطی میگوییم بایاس مدل زیاد است. مدلی که برای حل این مسئله استفاده شده است یک مدل ضعیف یا به عبارتی weak-learner است.

یادگیرنده ضعیف (weak learner)

weak-learner به مدلی گفته می‌شود، که دقت آن یک مقدار بیشتر از سطح شانسی باشد. برای مثال در یک مسئله طبقه‌بندی دو کلاسه، اگر طبقه بند دقتی بین 55 تا 60 داشته باشد، یک weak-leaner محسوب می‌شود.

یادگیرنده ضعیف- weak learner

لزوما همه مدلهای خطی یک weak-leaner نیستند! مسئله مشخص میکند که یک مدل ضعیف باشد یا قوی. ممکنه یک مدل غیرخطی هم در مقابل بعضی مسائل یک weak-leaner حساب شود.

واریانس مدل

مطمئنا تاحالا برای خیلی از دوستان پیش اومده است که یک پروژه ای انجام داده باشند که در آن دقت در پروسه آموزش یک عدد خیلی خوبی شده باشد ولی وقتی داده جدید استفاده کردند یهو دقت به طرز عجیبی پایین اومده باشد!

مفهوم overfitting در یادگیری ماشین

در چنین حالتهایی می گوییم مدل overfit شده است یا به عبارتی واریانس مدل خیلی افزایش یافته است! یعنی اختلاف بین دقت آموزش و تست خیلی زیاد بوده است.

واریانس کم یعنی اختلاف بین دقت آموزش و تست کم است و واریانس زیاد یعنی اختلاف بین دقت آموزش و تست زیاد است.

Overfitting

Overfitting در مدلهای غیرخطی از قبیل درخت تصمیم، شبکه های عصبی رخ میدهد. یک مسئله پیچیده داریم و از یک مدل غیرخطی برای حل آن استفاده می کنیم. ممکن است مدل فیت بشود روی داده و در نتیجه واریانسش افزایش یابد.

در شکل زیر مدل روی داده overfit شده و دقت خیلی خوبی برای داده آموزش دارد! ولی برای داده های جدید اصلا خوب عمل نخواهد کرد!

مفهوم واریانس در یادگیری ماشین

برای کاهش واریانس مدل از چه روش یادگیری جمعی استفاده کنیم؟

برای کاهش واریانس از روش bagging استفاده می‌کنند. در تکنیک bagging برای کاهش واریانس مدل، به جای یک مدل از چندین مدل همزمان(برای مثال به جای یک طبقه بند درختی، از چندین طبقه بند درختی استفاده می شود) استفاده میشود.

آموزش تکنیک bagging

در این روش با تکنیک bootstrap داده را به چندین زیر مجموعه تقسیم میکنند و سپس هر کدام از مدلها را با یکی از زیرمجموعه ها آموزش می دهند. در تکنیک bootstrap در داده زیر مجموعه ممکن است یک داده چندین بار تکرار شود.

آموزش تکنیک bagging

بعد از آموزش مدلها aggregating انجام می شود یا به عبارتی مدلها باهم ترکیب می شوند تا خروجی داده جدید را تخمین بزنند. همه مدلها در این تکنیک جنس یکسانی دارند ولی از از آنجا که هر کدام با داده متفاوتی آموزش دیده اند در نتیجه برای داده جدید تصمیم متفاوتی میتوانند بگیرند.

بعد از اینکه هر مدل خروجی داده جدید را تخمین زد، رای گیری اتفاق می افتد . برای مثال در مسائل طبقه بندی داده جدید به کلاسی تعلق دارد که بیشترین رای را نسبت به آن کلاس داشته باشد.

این رویکرد زمانی میتواند خوب عمل کند که مدل پایه پتانسیل overfitting داشته باشد!

برای کاهش بایاس مدل از چه روش یادگیری جمعی استفاده کنیم؟

روشهای boosting برای تقویت weak-learner ها استفاده می‌شوند. به همین خاطر میتوان از boosting برای کاهش بایاس استفاده کرد.

آدابوست

در این روش نیز جنس همه مدلها باید یکی باشد. ولی برخلاف bagging ، در این روش مدل پایه باید یک weak-learner باشد. در غیر انصورت نتیجه عکس خواهید دید! به جای تقویت تعضیف رخ میدهد! عجیبه ولی همینی که هست!

یعنی اگر یک مدلی دقتش 90 درصد باشه، و بخواهیم با boosting تقویتش کنیم، انتظار اینو نداشته باشید که دقت خوب میشه! ممکنه دقت برسه به 60! به قول آقای مدیری، دیدم که میگم…

خب یعنی نمیشه از یادگیری جمعی در چنین شرایطی برای افزایش دقت استفاده کرد! چرا نمیشه! از تکینک voting یا stacking برای چنین حالتهایی استفاده میکنیم! در پست بعدی این روشها را توضیح خواهیم داد.

حالا تکنیک boosting چطور مدلها را تقویت میکند! در این رویکرد از چندین مدل ضعیف همزمان استفاده می شود و یک مسئله پیچده حل میشود. در این تکنیک هر مدل یک بخش مسئله را حل میکند. و وقتی کنارهم قرار میگیرند کل مسئله حل میشود.

آموزش آدابوست

روال به این شکل است که در ابتدا یک مدل ضعیف آموزش دیده و تست می شود. مدل اول قطعا یک تعداد از نمونه ها را به اشتباه دسته بندی خواهد کرد! نمونه هایی که اشتباه دسته بندی شده اند، برجسته تر میشوند، به عبارتی وزن بیشتری میگیرند. تا مدل بعدی حواسش به اونا باشه و سعی کنه اونارو حل درست دسته بندی کنه!

در این رویکرد برخلاف bagging، مدلهای پایه به صورت ترتیبی آموزش میبینند. هر مدلی که آموزش میبیند هدفش این است که ایرادات مدلهای قبل از خودش رو برطرف کنه! و ایده بسیار خوبی هست و با این روال یک مسئله بسیار پیچیده را به چندین مدل بسیار ساده حل میکند! در مسئله رگرسیون هم همین روال هست.

اگه علاقه مند این مباحث هستید فصل یادگیری جمعی دوره جامع شناسایی الگو-یادگیری ماشین را نگاه کنید.به طور مفصل به این مباحث پرداخته ایم و علاوه بر پیاده‌سازی تمامی تکینکیها، چندین پروژه عملی رگرسیون و طبقه‌بندی انجام داده ایم.

دوره های مرتبط

شناسایی الگو (فصل پنجم): یادگیری جمعی (Ensemble learning)

یادگیری جمعی (ensemble learning) حوزه‌ای در یادگیری ماشین است که در این حوزه تکنیک‌هایی مطرح شده است که به کمک آنها از چندین مدل به صورت ترکیبی و همزمان جهت تصمیم گیری استفاده می‌کنند تا توان مدل در تخمین خروجی…

محمد نوری زاده چرلو

1399-01-23

پکیج جامع شناسایی الگو و یادگیری ماشین( فصل های اول تا چهارم- از بیزین تا SVM)

شناسایی الگو یک فرایند شناختی است که در مغز ما زمانی که با برخی اطلاعاتی روبرو می‌شویم که با اطلاعات ذخیره شده در حافظه ما مطابقت دارد اتفاق می افتد. در علوم کامپیوتر، شناسایی الگو یک فرایند علمی است که…

محمد نوری زاده چرلو

1398-12-22

شناسایی الگو(فصل هفتم): انتخاب ویژگی (feature selection)

در فصل هفتم دوره پترن و یادگیری ماشین، روشهای انتخاب ویژگی( feature Selection)از قبیل ttest، anova، نرخ تفکیک پذیری فیشر(FDR) ، اطلاعات متقابل(Mutual information) و روش جستجوی سلسله مراتبی روبه جلو (sequential forward feature selection ) را معرفی می کنیم…

محمد نوری زاده چرلو

1399-04-01

شناسایی الگو(فصل ششم): تئوری و پیاده سازی الگوریتمهای کاهش بعد PCA و LDA

در یک سیستم شناسایی الگو، کاهش بعد در مرحله چهارم بین طبقه‌بندی و استخراج ویژگی قرار می‌گیرید و هدفش کاهش تعداد ویژگی های استخراج شده می‌باشد تا کار تصمیم گیری را برای طبقه‌بند تسهیل کند. در این فصل تئوری روشهای…

محمد نوری زاده چرلو

1399-02-15

پکیج کامل پیاده‌سازی گام به گام شبکه‌های عصبی

در دوره جامع شبکه عصبی تمامی شبکه‌های عصبی صفر تا صد آموزش داده شده و سپس مرحله به مرحله بدون اینکه از تولباکس آماده استفاده کنیم، پیاده سازی می‌‎شوند. برای اینکه بتوانید یک شبکه‌ای را در متلب پیاده‌سازی کنید لازم…

محمد نوری زاده چرلو

1398-05-04

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

4 دیدگاه

7 راه موثر برای جلوگیری از overfitting در الگوریتم‌های یادگیری ماشین - آکادمی آنلاین مهندسی پزشکی و هوش مصنوعی 5 سال پیش

[…] تفاوت این دو تکنیک boosting و bagging قبلا آشنا شده ایم و به طور مفصل این مسئله را بررسی […]
تکنیک bagging در یادگیری جمعی - آکادمی آنلاین مهندسی پزشکی و هوش مصنوعی 5 سال پیش

[…] در پروژه شما به چه چیزی ربط دارد؟ واریانس بالای مدل یا بایاس بالای مدل!؟؟ به عبارت دیگر مشکل شما overfitting مدل هست یا […]
نگین 4 سال پیش

مرسی تموزش خیای خوبی بود
- onlinebme 4 سال پیش
  
  ممنون از لطف شما

برای کاهش overfitting و underfitting کدام روش یادگیری جمعی استفاده کنیم؟

چالش آموزش الگوریتمهای یادگیری ماشین

بایاس مدل

یادگیرنده ضعیف (weak learner)

واریانس مدل

Overfitting

برای کاهش واریانس مدل از چه روش یادگیری جمعی استفاده کنیم؟

برای کاهش بایاس مدل از چه روش یادگیری جمعی استفاده کنیم؟

دوره های مرتبط

شناسایی الگو (فصل پنجم): یادگیری جمعی (Ensemble learning)

پکیج جامع شناسایی الگو و یادگیری ماشین( فصل های اول تا چهارم- از بیزین تا SVM)

شناسایی الگو(فصل هفتم): انتخاب ویژگی (feature selection)

شناسایی الگو(فصل ششم): تئوری و پیاده سازی الگوریتمهای کاهش بعد PCA و LDA

پکیج کامل پیاده‌سازی گام به گام شبکه‌های عصبی

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

4 دیدگاه

سبد خرید