خوشه بندی (clustering)


خوشه بندی (clustering)

خوشه‌بندی یا آنالیز خوشه(Clustering)در آمار و یادگیری ماشینی، یکی از شاخه های یادگیری بدون ناظر می‌باشد که آن ورودی هست و خروجی ای وجود ندارد و مدل خودش الگوی نهفته داده را پیدا کرده و سپس نمونه‌ها را به دسته‌هایی که اعضای آن مشابه یکدیگر می‌باشند تقسیم می‌کند که به این دسته ها خوشه گفته میشود. بنابراین خوشه مجموعه ای از اشیاء می‌باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشه‌های دیگر غیر مشابه می‌باشند.

اجازه بدهید با یک مثال توضیح دهم، فرض کنید تصویر زیر را به شما داده اند و از شما میخواهند داده ها را براساس شکل ظاهری آنها دسته بندی کنید. شما حتی اگر اولین بار است که چنین اشکالی را می بینید باز خیلی راحت براساس ظاهر آنها، داده های مشابه را در کنار هم قرار میدهید.

همان رویکرد را الگوریتمهای خوشه بندی انجام میدهند و براساس شباهت داده ها (که معیار فاصله آنها میزان شباهت را مشخص می کند) آنها را در خوشه های مختلف قرار می دهند.

خوشه بندی با کلاسترینگ

معیار فاصله

معیار فاصله بسته به نوع توزیع داده میتواند متفاوت باشد، و اینکه چه معیاری برای فاصله تعیین کنیم در نتیجه کار خیلی میتواند تاثیر گذار باشد، معیارهایی از قبیل فاصله اقلیدسی(Euclidean distance )، فاصله ماهالانوبیس(mahalanobis distance )، فاصله شهری(cityblock)، کورولیشن (correlation)

در شکل زیر یک داده مشاهده می کنید که توسط الگوریتم kmeans با معیار فاصله اقلیدسی داده را در طول 20 تکرار خوشه‌بندی شده است.

خوشه بندی با کلاسترینگ

الگوریتمهای خوشه بندی

روش های خوشه بندی به طور کلی به دو دسته تقسیم می شوند، روشهایی که در آنها تعداد خوشه ها باید تعیین شود و روشهایی که در آنها تعداد خوشه تعیین نمیشود.

از روشهایی که در آنها تعداد خوشه ها باید توسط کاربر تعریف شوند میتوان  الگوریتم k-means، الگوریتم fcm  و شبکه های عصبی som اشاره کرد.

و از روشهایی که در آنها نیازی نیست تعداد k مشخص شود می توان به روشهای سلسله مراتبی، الگوریتم PG-means و x-means اشاره کرد.

در جلسات بعدی به طور مفصل این الگورتیمها توضیح داده خواهند شد، و سپس در متلب مرحله به مرحله پیاده سازی شده و در نهایت پروژه های عملی با این الگورتیمها انجام خواهیم داد.

موفق باشید.


 


دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

code