چرا دست‌های تولید شده توسط هوش مصنوعی اینقدر به هم ریخته هستند؟


برنامه های جدید قدرت گرفته از هوش مصنوعی با وجود آنکه می توانند تصاویری تولید کنند که تشخیص غیرواقعی بودن آنها برایمان مشکل است اما هنوز در تولید تصاویر دست انسان نقطه ضعف بالایی دارند. در این پست به بررسی و علت آن می پردازیم.

مایلز زیمرمن، برنامه‌نویس 31 ساله از سانفرانسیسکو از Midjourney (ابزار مجهز به هوش مصنوعی) خواسته است تا «تصویری واقعی از چند جوان 20 ساله شاد در سال 2018 که در حال رقص و شادی هستند» تولید کند. در عرض چند ثانیه، تصاویر تولید شدند

AI generated boys in party

AI generated boys

AI generated humans

AI Generated girls

AI generated girls in party

 

زیمرمن می‌گوید:

«همانطور که مدام به تصاویر نگاه می‌کردم، سخت بود که با صدای بلند به عجیب بودن این دست‌ها و دندان‌ها نخندم». «برای من، خلق این رندرهای تقریباً بی عیب و نقص با چنین ایرادات احمقانه‌ای از ویژگی‌های هوش مصنوعی بود که به نظرم خنده‌دار بود».

طی چند ماه گذشته، سرویس‌هایی مانند  Midjourney, Stable Diffusion و DALL-E2 به محبوبیت زیادی رسیده‌اند. این برنامه‌ها با استفاده از پیام‌های متنی ساده که توسط نوع کاملاً جدیدی از هوش مصنوعی به نام generative AI تولید می‌شوند، به هر کسی این امکان را می‌دهند که تقریباً هر تصویری که می‌خواهد را ایجاد کند و به همان میزان هیجان و واکنش منفی ایجاد شود.

این برنامه‌ها به این دلیل، کار می‌کنند که «آموزش داده شده‌اند» تا روابط بین میلیاردها تصویر از سراسر اینترنت و توضیحات متنی همراه آنها را تشخیص دهند تا اینکه در نهایت برنامه «بفهمد» برای مثال کلمه‌ی «سگ» به کدام تصویر مربوط می‌شود. این تصاویر و توضیحات آنها به عنوان «دیتاست» شناخته می‌شوند.

هنر ایجاد شده با استفاده از هوش مصنوعی روی چنین دیتاست‌هایی در حال حاضر برنده‌ی رقابت‌هاست و توسط خالقان برای نشان دادن مقالات، خبرنامه‌ها و … استفاده شده است.

اما علیرغم پیشرفت‌های سریع، تولید کننده‌های تصویر قدرت گرفته از هوش مصنوعی هنوز به یک مورد خاص علاقه مند هستند: تولید دست‌های انسان با ظاهری واقعی!

در اینجا به Stable Diffusion، DALL-E 2، و Midjourney، تولید کنندگان پیشرو تصویر با هوش مصنوعی در جهان یک دستور ساده داده‌ایم: دست انسان

AI-generated hands

این نوع خروجی‌ها، الهام بخش چنین میم‌هایی شده‌اند

AI accepting the job

علت چیست؟

اما چرا این برنامه‌ها، دست‌های به هم ریخته تولید می‌کنند؟ این سوالی است که بسیاری از مردم پرسیده‌اند.

برای درک این موضوع به Midjourney، Stability AI که Stable Diffusion را ساخته است و OpenAI که DALL-E 2 را ساخته است ایمیل زدم. تنها Stability AI به سوال پاسخ داد.

یکی از سخنگویان Stability AI به BuzzFeed News پاسخ داد:

«به طور کلی در مجموعه داده‌های هوش مصنوعی، تصاویر دست انسان وضوح کمتری نسبت به صورت انسان دارد و همچنین دست‌ها در تصاویر منبع بسیار کوچکتری هستند زیرا به ندرت در تصاویر بزرگتر قابل مشاهده هستند»

برای درک بیشتر با آملیا وینگر بیرسکین هنرمند و دانشیار هوش مصنوعی و هنر در دانشگاه فلوریدا که زیبایی شناسی هنر هوش مصنوعی را در وبلاگ خود تحلیل می‌کند تماس گرفتم. او فریاد زد: «من به این سوال وسواس دارم»

وینگر بیرسکین توضیح داد:

«هوش مصنوعی مولد (Generative AI) که بر روی میلیاردها تصاویر اینترنت آموزش داده شده است واقعاً نمی‌داند «دست» چیست، حداقل نه به روشی که از نظر تشریحی به بدن انسان متصل می‌شود.»

او گفت: «هوش مصنوعی فقط به نحوه‌ی نمایش دست‌ها در تصاویری که روی آنها آموزش داده شده است نگاه می‌کند». او می افزاید: « در تصاویر، دست‌ها کاملاً ظریف هستند. معمولاً چیزی را نگه داشته‌اند یا روی شانه‌ی شخص دیگری هستند»

در عکس‎ها، نقاشی‌ها و اسکرین شات‌هایی که هوش مصنوعی از آنها یاد می‌گیرد. ممکن است دست‌ها میکروفون را گرفته باشند و یا به گونه‌ای رو به روی دوربین باشند که فقط چند انگشت قابل مشاهده باشد. یا ممکن است در تصاویری هیچ انگشتی قابل مشاهده نباشد و دست مشت شده باشد.

وینگر بیرسکین در حالی که دست‌هایش را با انگشتان باز نگه داشته است، می‌گوید: «در تصاویر، دست‌ها به ندرت اینگونه هستند. اگر دست‌ها در تمام تصاویر اینگونه بودند، هوش مصنوعی می‌توانست آنها را به خوبی بازتولید کند.» او می‌گوید:

«هوش مصنوعی باید بداند که بدن انسان دقیقاً چطور است و دست‌ها چطور به بدن متصل می‌شوند ومحدودیت‌های آن چیست.»

طراحی دست ها در آثار هنرمندان قدیم

دست‌ها در دنیای هنر جایگاه اساسی دارند -نقش دست‌ها روی دیوارهای غار اولین نوع هنری است که انسان‌های خردمند خلق کردند و آنها را می‌شناسیم. و به عنوان دشوارترین شی برای کشیدن در نقاشی در نظر گرفته می‌شوند. در نقاشی‌های یونان باستان و اروپای قرون وسطی، بازنمایی دست‌های انسان همچنان صاف و فاقد پیچیدگی بود.

تنها در عصر هنر رنسانس، بین قرن‌های چهارده و شانزده در اروپا (زمانی که هنرمندانی مانند لئوناردو داوینچی شروع به مطالعه و طراحی دست‌ها کردند و عناصر ساختاری آن مانند استخوان‌ها و رباط‌ها را مطالعه کردند) دست‌های انسان نشان داده شد. این دوره همچنین یکی از شناخته شده‌ترین نقاشی‌های دیواری شامل دو دست را برای ما به ارمغان آورد (خلقت آدم اثر میکل آنژ) که خدا را به صورت مردی ریش دار نشان می‌دهد که دست راستش را دراز کرده تا سمت چپ آدم را لمس کند.

وینگر بیرسکین گفت: «داوینچی در واقع کاملاً به دست‌ها وسواس داشت. مطالعات بسیاری روی دست‌ها انجام داد در همین حال، وقتی هوش مصنوعی روی یک تصویر آموزش داده می‌شود فقط به آن نگاه می‌کند و می‌گوید «فقط نیمی از انگشتان در تصویر هستند». زیرا بقیه انگشتان زیر پارچه پنهان هستند یا چیزی را گرفته‌اند. بنابراین وقتی آنها را بازتولید می‌کند تا حدودی شکل آن را تغییر می‌دهد.

با این حال یک روز هوش مصنوعی مولد در ارائه‌ی تصاویر دست، پا و دندان بهتر خواهد شد. او ادامه می‌دهد: «برای اینکه هوش مصنوعی به ابزاری مفید برای بشریت تبدیل شود، باید بداند انسان بودن چیست و واقعیت آناتومیک بدن انسان را به خوبی درک کند»

 


دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

code