تفاوت بین کواریانس و همبستگی(correlation)


در تئوری احتمال و آمار عبارت کواریانس و همبستگی (correlation) خیلی شبیه هم هستند. هر دو پارامتر میزان ارتباط خطی بین دو تا متغیر را توصیف می کنند و با کمک کواریانس و همبستگی می‌توان میزان وابستگی یک متغیر را به یک متغیر دیگه بررسی کرد.  ولی تفاوت این دو در چی هست؟

 

در آمار از کواریانس و همبستگی برای بررسی ارتباط خطی دو بین دو متغیر و اندازه گیری میزان وابستگی آنها به همدیگر استفاده میکنند! ولی آیا هر دو عین هم هستند؟ خیر!

همبستگی جهت و شدت ارتباط بین دو متغیر را مشخص میکند، در حالی که کواریانس تنها جهت ارتباط بین دو متغیر را مشخص می‌کند.

اجازه بدهید با یک مثال ساده این مسئله را بررسی کنیم، فرض کنید که در یک مطالعه ای میخواهید قد افراد در جامعه ایران را بررسی کنید و ببینید قد افراد به چه صورت توزیع شده است. برای اینکار یک تعداد افراد از جامعه را به صورت کاملا تصادفی انتخاب می‌کنید و قد این افراد را اندازه گیری می‌کنید. فرض کنید که قد افرادی که بررسی کردید به صورت زیر است.

 

فرق بین کواریانس و همبستگی

 

الان شما یک مجموعه‌ای تک متغیره دارید و اگر بخواهید این مجموعه را از لحاظ آماری بررسی کنید نیاز به محاسبه میانگین و واریانس قد افراد دارید.

میانگین

حد وسط یک داده را مشخص میکند. در این مثال میانگین قد افراد در جامعه را مشخص میکند.

واریانس

میزان تغییرات حول میانگین را مشخص می کند. واریانس کمتر به این معنی است که قد افراد جامعه خیلی شبیه هم هست ولی اگر واریانس زیاد باشد نشان میدهید که قد افراد در جامعه رنج تغییرات زیادی دارد.

خب با همین دو پارامتر میتوانیم به صورت آماری یک مجموعه تک متغیره را بررسی کنیم.

میانگین و واریانس

حال بیایید مثال را تغییر بدهیم، فرض کنید که می‌خواهید ارتباط بین وزن و قد افراد را بررسی کنید. و برای همین منظور تعدادی از افراد جامعه را به صورت کاملا تصادفی انتخاب می‌کنید، و وزن و قد این افراد را اندازه گیری می‌کنید .

 

در این مسئله میخواهیم بدانیم که چه ارتباط خطی بین قد و وزن افراد وجود دارد. برای مثال میخواهیم بدانیم آیا با تغییر قد افراد وزن افراد هم تغییر کرده یا نه. و اگر تغییر کرده این تغییرات به چه شکل بوده است. برای بررسی ارتباط خطی بین دو تا مجموعه تک متغیره از کواریانس و همبستگی استفاده می کنند.

کواریانس

کواریانس دو تا متغیر را میتوان طبق رابطه زیر محاسبه کرد و مقدار بدست آمده یک عددی بین [-∞ :+ ∞] است.

کواریانس  تنها جهت(direction) ارتباط بین دو متغیر را مشخص میکند. بعنی مشخص می‌کند که ارتباط بین دو متغیر مثبت ، منفی و یا صفر است.

  •  اگر کواریانس بین قد و وزن افراد مثبت باشد، یعنی با افزایش قد افراد جامعه، وزنها انها هم افزایش می یابد و یا برعکس با کاهش قد افراد، وزن افراد نیز کاهش می یابد
  • اگر کواریانس بین قد و وزن افراد منفی باشد، یعنی با افزایش قد افراد جامعه، وزنها افراد کاهش می یابد و یا برعکس با کاهش قد افراد، وزن افراد نیز افزایش می یابد
  • اگر کواریانس بین قد و وزن افراد صفر باشد، یعنی با افزایش یا کاهش قد افراد جامعه، وزنها انها تغییری نمی‌کند.

حال فرض کنید کواریانس بین دو تا متغیر شده عدد 15، به نظر شما این عدد چه چیزی را مشخص می‌کند؟ آیا می‌توان گفت ارتباط خطی بین دو متغیر بسیار زیاد هست؟ نه نمیتوان گفت. ما از روی کواریانس بدست آمده تنها جهت ارتباط بین دو متغیر را میتوانیم متوجه شویم، ولی اینکه شدت ارتباط بین دو متغیر چقدر هست را نمیتوان متوجه شد!

 

همبستگی

همسبتگی همان کواریانس نرمال شده است و طبق رابطه زیر میتوانیم همبتسگی بین دو متغیر را بدست آوریم.

همسبتگی یک عدد بین [-1:+1] هست و جهت(direction) و شدت-میزان (strength) ارتباط خطی بین دو متغیر را مشخص می‌کند.

هر چقدر همبستگی به عدد +1 نزدیک باشد، به معنی است که بین دو متغیر خطی ارتباط خطی مثبت زیادی وجود دارد. یعنی با افزایش قد افراد، وزن  افراد هم افزایش پیدا میکند و برعکس. یک ارتباط مستقیم بین دو متغیر وجود دارد.

هر چقدر همبستگی به عدد -1 نزدیک باشد، به معنی است که بین دو متغیر خطی ارتباط خطی منفی زیادی وجود دارد. یعنی با افزایش قد افراد، وزن  افراد کاهش پیدا میکند و برعکس. یک ارتباط عکس بین دو متغیر وجود دارد.

اگر همبستگی دو متغیر نزدیک به عدد 0 باشد معنیش این است که با تغییرات مقدار یک متغیر، تغییر در مقدار متغیر دوم اتفاق نمی افتد!

همبستگی

حالا سوال اینه که اگر هر دو مجموعه به جای تک متغیره،  چند متغیره باشند چیکار کنیم؟ از چه ابزاری برای بررسی ارتباط بین دو مجموعه چند متغیره استفاده کنیم؟

یکی از الگوریتمهای معروفی که میتوان با کمک آن ارتباط خطی بین دو مجموعه چند متغیره را بررسی کرد الگوریتم CCA ، تجزیه همسبتگی کانونی است. در دوره واسط مغز کامپیوتر مبتنی بر SSVEP به طور کامل تئوری این روش رو توضیح داده و پیاده سازی کرده ایم.


دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

code

17 دیدگاه

  1. mohammad

    خیلی عالی بود ممنون

    • onlinebme

      ممنون از توجه شما

  2. حمیدرضا

    توضیحاتتون خیلی عالی بود.

    • onlinebme

      ممنون از توجه شما
      خوشحالیم که براتون مفید بوده

  3. ناشناس

    خیلی ممنون
    تفاوت کوواریانس و همبستگی رو در کتاب آمار دکتری انقدی که شما با یک مثال ساده گفتید،مشخص نکرده بود.

  4. hasan

    عالی-ساده و مفهومی

  5. مریم

    تشکر از لطفتون خیلی ممنونم که با مثال توضیح داده بودید، بالاخره یه چیزایی فهمیدم

  6. خیلی عالی بود سپاسگزارم

  7. حبيب اله بدري

    متشكرم. توضيح جنابعالي به راحتي قابل فهم بود

    • Onlinebme

      ممنون از لطف شما

  8. مصطفی

    عالی بود

  9. حشمت

    ممنون

  10. مژگان

    بسیار عالی و خلاصه

  11. MSK

    عالی.
    آموزش عالی رو باید گفت عالی. کلی متن خوندم، هیچ‌کدوم به این قشنگی این دو مفهوم رو برام باز نکرده بود.

    خیلی ممنون.

    • Onlinebme

      سلام
      خوشحالیم که براتون مفید بوده
      موفق باشید