کاهش بعد و طبقه بندی با PCA
الگوریتم PCA یا همان تجزیه مولفه های اساسی یکی از معروف ترین روشها برای کاهش بعد است. PCA یک روش بدون ناظر هست که ویژگی ها را به صورت خطی باهم ترکیب کرده و به فضای جدید کاهش بعد یافته نگاشت میدهد. عمده ترین کاربرد PCA برای کاهش بعد هست ولی جالب هست بدانیم که میتوان از این الگوریتم برای دسته بندی داده هم استفاده کرد. در این پست به طور مختصر رویکرد PCA را بررسی میکنیم
مفهوم کاهش بعد
کاهش بعد به این معنی هست که ما یک داده را از فضای با ابعاد بالا به یک فضای جدید با ابعاد پایین تر منتقل کنیم به طوری که عمدهترین اطلاعات داده باقی بماند. به دو روش میتوان ابعاد یک داده را کاهش داد: feature selection و feature mapping
الگوریتم PCA در دسته feature mapping قرار میگیرد که در این دسته ویژگی ها باهم به صورت خطی یا غیرخطی ترکیب شده و به یک فضای جدید نگاشت پیدا میکنند. برخلاف روشهای انتخاب ویژگی، در feature mapping ماهیت ویژگی ها تغییر میکند.
تجزیه مولفه های اساسی(PCA)
الگوریتم PCA براساس پراکندگی کاهش بعد را انجام میدهد و با فرض اینکه ویژگی هایی که بیشترین پراکندگی را دارند، عمدهترین اطلاعات را شامل می شوند، داده ها را در جهتی نگاشت میدهد که بیشترین پراکندگی را داشته باشد.
برای درک بهتر رویکرد PCA در کاهش بعد، پیشنهاد میکنیم که ویدیوی زیر را مشاهده کنید…
طبقه بندی با PCA
جالب است بدانید که میتوان از PCA برای طبقه بندی هم استفاده کرد. برای اینکار لازم است که شما به ازای داده های هر گروه، جداگانه الگوریتم PCA را اعمال کرده و بردارهای ویژه آنها را محاسبه کنید. یعنی به ازای هر گروه، یک بردار ویژه جدا محاسبه کنید. اگر فرض کنیم فضای ویژگی دو بعدی هست در اینصورت هر کدام از این بردارهای ویژه یک خط در فضای دو بعدی خواهند بود(در ابعاد بالا-فوق صفحه) . حال جهت دسته بندی داده جدید، کافیه فاصله نمونه جدید را با تک تک بردارهای ویژه هر گروه محاسبه کرد. نمونه ی جدید به کلاسی تعلق دارد که کمترین فاصله را نسبت به بردار ویژه آن گروه داشته باشد.
برای درک بهتر رویکرد PCA در طبقه بندی، پیشنهاد میکنیم که ویدیوی زیر را مشاهده کنید…
دیدگاه ها