چرا دستهای تولید شده توسط هوش مصنوعی اینقدر به هم ریخته هستند؟
- دسته:اخبار علمی
- هما کاشفی
برنامه های جدید قدرت گرفته از هوش مصنوعی با وجود آنکه می توانند تصاویری تولید کنند که تشخیص غیرواقعی بودن آنها برایمان مشکل است اما هنوز در تولید تصاویر دست انسان نقطه ضعف بالایی دارند. در این پست به بررسی و علت آن می پردازیم.
مایلز زیمرمن، برنامهنویس 31 ساله از سانفرانسیسکو از Midjourney (ابزار مجهز به هوش مصنوعی) خواسته است تا «تصویری واقعی از چند جوان 20 ساله شاد در سال 2018 که در حال رقص و شادی هستند» تولید کند. در عرض چند ثانیه، تصاویر تولید شدند
زیمرمن میگوید:
«همانطور که مدام به تصاویر نگاه میکردم، سخت بود که با صدای بلند به عجیب بودن این دستها و دندانها نخندم». «برای من، خلق این رندرهای تقریباً بی عیب و نقص با چنین ایرادات احمقانهای از ویژگیهای هوش مصنوعی بود که به نظرم خندهدار بود».
طی چند ماه گذشته، سرویسهایی مانند Midjourney, Stable Diffusion و DALL-E2 به محبوبیت زیادی رسیدهاند. این برنامهها با استفاده از پیامهای متنی ساده که توسط نوع کاملاً جدیدی از هوش مصنوعی به نام generative AI تولید میشوند، به هر کسی این امکان را میدهند که تقریباً هر تصویری که میخواهد را ایجاد کند و به همان میزان هیجان و واکنش منفی ایجاد شود.
این برنامهها به این دلیل، کار میکنند که «آموزش داده شدهاند» تا روابط بین میلیاردها تصویر از سراسر اینترنت و توضیحات متنی همراه آنها را تشخیص دهند تا اینکه در نهایت برنامه «بفهمد» برای مثال کلمهی «سگ» به کدام تصویر مربوط میشود. این تصاویر و توضیحات آنها به عنوان «دیتاست» شناخته میشوند.
هنر ایجاد شده با استفاده از هوش مصنوعی روی چنین دیتاستهایی در حال حاضر برندهی رقابتهاست و توسط خالقان برای نشان دادن مقالات، خبرنامهها و … استفاده شده است.
اما علیرغم پیشرفتهای سریع، تولید کنندههای تصویر قدرت گرفته از هوش مصنوعی هنوز به یک مورد خاص علاقه مند هستند: تولید دستهای انسان با ظاهری واقعی!
در اینجا به Stable Diffusion، DALL-E 2، و Midjourney، تولید کنندگان پیشرو تصویر با هوش مصنوعی در جهان یک دستور ساده دادهایم: دست انسان
این نوع خروجیها، الهام بخش چنین میمهایی شدهاند
علت چیست؟
اما چرا این برنامهها، دستهای به هم ریخته تولید میکنند؟ این سوالی است که بسیاری از مردم پرسیدهاند.
برای درک این موضوع به Midjourney، Stability AI که Stable Diffusion را ساخته است و OpenAI که DALL-E 2 را ساخته است ایمیل زدم. تنها Stability AI به سوال پاسخ داد.
یکی از سخنگویان Stability AI به BuzzFeed News پاسخ داد:
«به طور کلی در مجموعه دادههای هوش مصنوعی، تصاویر دست انسان وضوح کمتری نسبت به صورت انسان دارد و همچنین دستها در تصاویر منبع بسیار کوچکتری هستند زیرا به ندرت در تصاویر بزرگتر قابل مشاهده هستند»
برای درک بیشتر با آملیا وینگر بیرسکین هنرمند و دانشیار هوش مصنوعی و هنر در دانشگاه فلوریدا که زیبایی شناسی هنر هوش مصنوعی را در وبلاگ خود تحلیل میکند تماس گرفتم. او فریاد زد: «من به این سوال وسواس دارم»
وینگر بیرسکین توضیح داد:
«هوش مصنوعی مولد (Generative AI) که بر روی میلیاردها تصاویر اینترنت آموزش داده شده است واقعاً نمیداند «دست» چیست، حداقل نه به روشی که از نظر تشریحی به بدن انسان متصل میشود.»
او گفت: «هوش مصنوعی فقط به نحوهی نمایش دستها در تصاویری که روی آنها آموزش داده شده است نگاه میکند». او می افزاید: « در تصاویر، دستها کاملاً ظریف هستند. معمولاً چیزی را نگه داشتهاند یا روی شانهی شخص دیگری هستند»
در عکسها، نقاشیها و اسکرین شاتهایی که هوش مصنوعی از آنها یاد میگیرد. ممکن است دستها میکروفون را گرفته باشند و یا به گونهای رو به روی دوربین باشند که فقط چند انگشت قابل مشاهده باشد. یا ممکن است در تصاویری هیچ انگشتی قابل مشاهده نباشد و دست مشت شده باشد.
وینگر بیرسکین در حالی که دستهایش را با انگشتان باز نگه داشته است، میگوید: «در تصاویر، دستها به ندرت اینگونه هستند. اگر دستها در تمام تصاویر اینگونه بودند، هوش مصنوعی میتوانست آنها را به خوبی بازتولید کند.» او میگوید:
«هوش مصنوعی باید بداند که بدن انسان دقیقاً چطور است و دستها چطور به بدن متصل میشوند ومحدودیتهای آن چیست.»
طراحی دست ها در آثار هنرمندان قدیم
دستها در دنیای هنر جایگاه اساسی دارند -نقش دستها روی دیوارهای غار اولین نوع هنری است که انسانهای خردمند خلق کردند و آنها را میشناسیم. و به عنوان دشوارترین شی برای کشیدن در نقاشی در نظر گرفته میشوند. در نقاشیهای یونان باستان و اروپای قرون وسطی، بازنمایی دستهای انسان همچنان صاف و فاقد پیچیدگی بود.
تنها در عصر هنر رنسانس، بین قرنهای چهارده و شانزده در اروپا (زمانی که هنرمندانی مانند لئوناردو داوینچی شروع به مطالعه و طراحی دستها کردند و عناصر ساختاری آن مانند استخوانها و رباطها را مطالعه کردند) دستهای انسان نشان داده شد. این دوره همچنین یکی از شناخته شدهترین نقاشیهای دیواری شامل دو دست را برای ما به ارمغان آورد (خلقت آدم اثر میکل آنژ) که خدا را به صورت مردی ریش دار نشان میدهد که دست راستش را دراز کرده تا سمت چپ آدم را لمس کند.
وینگر بیرسکین گفت: «داوینچی در واقع کاملاً به دستها وسواس داشت. مطالعات بسیاری روی دستها انجام داد در همین حال، وقتی هوش مصنوعی روی یک تصویر آموزش داده میشود فقط به آن نگاه میکند و میگوید «فقط نیمی از انگشتان در تصویر هستند». زیرا بقیه انگشتان زیر پارچه پنهان هستند یا چیزی را گرفتهاند. بنابراین وقتی آنها را بازتولید میکند تا حدودی شکل آن را تغییر میدهد.
با این حال یک روز هوش مصنوعی مولد در ارائهی تصاویر دست، پا و دندان بهتر خواهد شد. او ادامه میدهد: «برای اینکه هوش مصنوعی به ابزاری مفید برای بشریت تبدیل شود، باید بداند انسان بودن چیست و واقعیت آناتومیک بدن انسان را به خوبی درک کند»
دیدگاه ها