تفاوت شبکه عصبی عمیق و انسان در درک محرک
زمانی که مادرتان شما را صدا میکند، صرف نظر از اینکه شدت صدای او چقدر باشد، حتی اگر پشت تلفنی ضعیف صحبت کند متوجه هستید که آن صدای مادر شما است. و اگر چهره او را از فاصله ای دور ببینید یا در محیطی با نور کم، همچنان میفهمید او مادر شماست. این تحمل به تغییرات یک مشخصه اصلی ادراک انسانی است. از طرفی، ما همیشه در معرض خطا قرار داریم. ممکن است نتوانیم بین صداها یا تصاویری که در حقیقت متفاوتاند، تفاوت قائل شویم. دانشمندان بسیاری در تلاش برای توضیح این قیبل خطاها بودهاند، اما، درک کامل تحمل به تغییرات در مغز هنوز کاملا روشن نشده است.
نویسنده: پریسا ایلون
شبکه عصبی عمیق هم مثل انسان قادر است با تحمل بالایی نسبت به تغییرات محرک، ورودیهای صوتی و تصویری را کلاسبندی کند. اما آیا مواردی که این دو نتوانستند ورودیها را به درستی از هم تشخیص دهند نیز یکسان است. گروهی از دانشمندان دانشگاه MIT دریافتند که این دو سیستم متفاوتاند.
دانشمندان مفهوم تازهای از واژه متامر ارائه دادند- محرکهای فیزیکی مجزا که تاثیر حسی مشابهای ایجاد میکنند. شناخته شدهترین مثال متامر در سیستم بینایی انسان وجود دارد زیرا اغلب مردم در رتین چشم خود سه نوع گیرنده مخروطی مختلف برای بینایی رنگی دارند. رنگ دریافت شده از هر موج نوری کاملا با ترکیب خاصی از سه موج نور دیگر هماهنگ است برای مثال قرمز، سبز و آبی. دانشمندان در قرن نوزدهم از این طریق پی بردند که انسان میبایست سه گیرنده نوری در چشم خود داشته باشد. مفهوم متامر در سیستم شنوایی هم کمک کننده بوده است. برای مثال، صدای وزوز دو دسته حشره ممکن است قابل تفکیک نباشد هرچند در حقیقت آن دو در جزئیات آگوستیک متفاوتاند. در هر کدام از این دو سیستم، متامر ایده جدیدی در توضیح مکانیسم ادراک فراهم میکند و مدل هایی برای سیستم شنوایی و دیداری ارائه میدهد.
در مطالعه حاضر، دانشمندان به طور رندوم تصاویر و کلیپ صوتی کلمات ادا شده را از یک بانک داده استاندارد انتخاب کردند و بعد با کمک آنها صداها و تصاویری ساختند که شبکه عصبی همچنان آنها را به درستی دسته بندی میکرد. در واقع آنها محرکهای فیزیکی مجزایی را تعبیه کردند که مدل آنها را به درستی یک مفهوم میدانست اما انسان آنها را جدا تلقی میکرد. این رویکرد نگاه به مساله توسط متامر است، عمومی سازی مفاهیم برای روشن ساختن نقش مدلهای کامپیوتری. به همین دلیل آنها این محرکهای ساختگی را مدل متامر محرک طبیعی خواندند. در ادامه دانشمندان بررسی کردند انسان تا چه میزان میتواند این کلمات و تصاویر را درک کند.
Jenelle Feather دانشجوی دانشگاه MIT:
شرکت کنندگان بخش کوتاهی از صحبت را شنیدند و باید تعیین میکردند از بین کلمات موجود در یک فهرست کدام واژه وسط جمله قرار داشته. برای اصوات طبیعی این آزمون ساده است اما برای بسیاری از مدلهای متامری تشخیص کلمه برای انسانها دشوار است. به این معنی که انسانها محرکهای ساختگی را در یک گروه مشابه قرار نمیدهند مثل کلمه پرنده و تصویر پرنده که هر دو مربوط به پرنده است. در واقع، این مدلهای متامری تهیه شده مشابه پاسخ لایههای عمیق مدل بودند که عموما برای انسان به عنوان محرک تصویری شنیداری غیرقابل تشخیص بود.
علاوه براین برخی محرکها برای انسان یکسان هستند در حالی که برای مدل قابل کلاسبندی نیست. آنها مکمل محرکهای تولید شده توسط گروه Feather هستند که برای انسان مجزا هستند ولی مدل آنها را مثل هم میشناسد.
هرچند مدلهای استاندارد دیگر تفاوتهایی را بین سیسم ادراک انسان و شبکه عمیق نشان میدهند اما محرکهای ساختگی جدید این عدم انطباق را به طور مشخص نشان میدهد- آنها نشان میدهند محرکهایی که توسط شبکه عمیق در گروه یکسان کلاسبندی شدند برای انسان مفاهیم کاملا متفاوتی دارند.
دیدگاه ها