مدل‌های مختلف Generative AI


اثر Generative AI بر مشاغل مختلف بسیار زیاد بوده و همچنان در حال رشد است. به همین جهت، توجه به این حوزه‌ی پژوهشی بسیار مهم است. در این مقاله مدل‌های مختلف Generative AI، نحوه‌ی عملکرد آنها و کاربردهای عملی آنها در زمینه‌های مختلف را مورد بررسی قرار می‌دهیم.

هوش مصنوعی مولد یا Generative AI چیست؟

Generative AI به الگوریتم‌های یادگیری ماشین بدون نظارت و نیمه نظارتی اشاره دارد که کامپیوترها را قادر می‌سازد تا از محتوای موجود مانند متن، فایل‌های صوتی و ویدیویی، تصاویر و حتی کد برای تولید محتوای جدید استفاده کنند. ایده‌ی اصلی این حوزه آن است که محتواهای تولید شده کاملاً شبیه به محتواهای اصلی باشند.

این حوزه، کامپیوترها را قادر می‌سازد تا الگوهای اصلی داده‌های ورودی را استخراج کنند تا مدل بتواند با استفاده از آنها محتوای جدید تولید کند. در حال حاضر، چندین مدل Generative AI پرکاربرد وجود دارد که در ادامه آنها را بررسی خواهیم کرد.

شبکه‌های مولد تخاصمی یا Generative Adversarial Networks: فناوری‌هایی هستند که می‌توانند محتواهای بصری و چندرسانه‌ای را هم از ورودی‌های تصویر و هم از ورودی‌های متنی ایجاد کنند.

مدل‌های مبتنی بر Transformer: شامل فناوری‌هایی مانند مدل‌های زبانی Generative Pre-Trained (GPT) هستند که می‌توانند اطلاعات جمع آوری شده در اینترنت را برای خلق محتوای متنی جدید استفاده کنند.

خودرمزنگارهای متغیر یا Variational Autoencoders (VAEs) که در تسک‌هایی مانند تولید تصویر و تشخیص ناهنجاری مورد استفاده قرار می‌گیرند.

مدل‌های Diffusion: که برای ایجاد تصاویر و ویدیوهای واقعی از ورودی نویز تصادفی به عملکرد قابل توجهی دست پیدا کرده‌اند.

برای درک ایده‌ی پشت Generative AI، ابتدا لازم است تمایز بین مدلسازی Generative و Discriminative را درک کنیم.

هوش مصنوعی مولد چطور کار می‌کند: مدلسازی Discriminative در برابر Generative

مدلسازی Discriminative برای کلاسبندی نقاط داده‌ی موجود استفاده می‌شود (برای مثال کلاسبندی تصاویر مربوط به سگ و گربه). این نوع مدلسازی بیشتر متعلق به تسک‌های یادگیری ماشین نظارت شده است.

مدلسازی Generative سعی می‌کند ساختار دیتاست را درک کند و نمونه‌های مشابهی را تولید کند (برای مثال ایجاد یک تصویر واقعی از سگ یا گربه). این نوع مدلسازی بیشتر به تسک‌های یادگیری ماشین بدون نظارت و نیمه نظارتی تعلق دارد.

Unsupervised and supervised learning

هرچقدر شبکه‌های عصبی بیشتر در زندگی ما نفوذ کنند، حوزه‌های مدلسازی Generative و Discriminative بیشتر رشد می‌کنند. بیایید هر یک از این دو حوزه را با جزئیات بیشتری مورد بررسی قرار دهیم.

مدلسازی Discriminative

اکثر مدل‌های یادگیری ماشین برای پیش بینی استفاده می‌شوند. الگوریتم‌های Discriminative سعی می‌کنند که داده‌های ورودی را با توجه به مجموعه‌ای از ویژگی‌ها کلاسبندی کنند. و برچسب و یا کلاسی که یک نمونه داده (یا مشاهده) به آن تعلق دارد را پیش بینی کنند.

فرض کنید داده‌های آموزشی در اختیار داریم که حاوی تصاویر متعددی از گربه‌ها وسگ‌هاست. به این ها نمونه (sample) نیز می‌گویند. هر نمونه دارای ویژگی‌های خاصی است. ما همچنین یک شبکه عصبی در اختیار داریم که هدف آن درک نحوه‌ی تمایز بین دو کلاس است. در طول آموزش، هر برچسب پیش بینی شده (y’) با برچسب واقعی (y) مقایسه می‌شود. مدل بر اساس تفاوت بین این دو مقدار به تدریج روابط بین ویژگی‌ها و کلاس‌ها را یاد می‌گیرد و نتایج خود را به هم مرتبط می‌کند.

Discriminative Modeling

 

حال بیایید تفاوت بین گربه و سگ را فقط به دو ویژگی در مجموعه ویژگی X محدود کنیم (به عنوان مثال «وجود دم» و «شکل گوش»). از آنجاییکه هر ویژگی نشانگر یک بعد است، ارائه‌ی آنها در فضای داده‌ی دو بعدی آسان خواهد بود. در تصویر بالا، نقاط آبی سگ و نقاط نارنجی گربه هستند. این خط، مرز تصمیم‌گیری را نشان می‌دهد یا اینکه مدل یاد می‌گیرد گربه‌ها و سگ‌ها را بر اساس آن ویژگی‌ها جدا کند. زمانی که این مدل از قبل آموزش دیده باشد، بررسی می‌کند که تصویر جدید در کدام مرز تصمیم قرار می‌گیرد. برای انجام این کار، مدل به نوعی «به یاد می‌آورد» این نمونه‌ی جدید با توجه به آن چه که قبلاً دیده است چطور به نظر می‌رسد.

به طور خلاصه می‌توان گفت، مدل Discriminative، اطلاعات مربوط به تفاوت‌های تصاویر سگ و گربه را فشرده سازی می‌کند بدون اینکه دقیقاً بفهمد گربه یا سگ چیست.

مدلسازی Generative

الگوریتم‌های Generative کاملاً برعکس عمل می‌کنند-به جای پیش بینی برچسب با توجه به ویژگی‌ها، سعی می‌کنند که ویژگی‌هایی که برچسب خاصی دارند را پیش بینی کنند. الگوریتم‌های Discriminative به روابط بین X, Y اهمیت می‌دهند؛ مدلسازی Generative به نحوه‌ی تولید X از Y اهمیت می‌دهند.

Generative Modeling

از نظر ریاضی، مدلسازی Generative به ما امکانی می‌دهد تا احتمال وقوع X, Y را مشخص کنیم. این مدلسازی بر یادگیری ویژگی‌ها و روابط آنها تمرکز می‌کند تا ایده‌ی آن را بدست آورد که چه چیزی گربه‌ها را شبیه گربه و سگ‌ها را شبیه به سگ می‌کند. در نتیجه چنین الگوریتم‌هایی نه تنها می‌توانند دو حیوان را از هم تفکیک کنند، بلکه می‌توانند تصاویر آنها را بازسازی یا تولید کنند.

ممکن است این سوال را بپرسید که «چرا به الگوریتم‌های Discriminative نیاز داریم؟». واقعیت این است که نظارت بر آنها آسان‌تر بوده و قابل توضیح‌تر هستند- به عبارت دیگر، می‌توانید درک کنید که چرا یک مدل به نتیجه‌ی خاصی می‌رسد.

علاوه بر این، در بسیاری از موارد مهم نیست که داده‌ها چطور تولید شده‌اند-ما فقط باید بدانیم که داده‌ها به چه دسته‌ای تعلق دارند و این دقیقاً جایی است که برتری مدل‌های Discriminative مشخص می‌شود. به تحلیل احساسات در نظرات ارائه شده در مورد خدمات یک هتل فکر کنید. هدف آن تشخیص مثبت یا منفی بودن یک نظر است، نه ایجاد نظرات جعلی. مدل‌های Discriminative همچنان گزینه‌‌ای هستند که برای تشخیص تصویر، طبقه‌بندی اسناد، کشف تقلب و بسیاری از کارهای روزمره‌ی تجاری دیگر استفاده می‌شوند.

الگوریتم‌ها و مدل‌های Generative AI

الگوریتم‌ها و مدل‌های مختلفی برای ایجاد محتوای جدید و واقعی از داده‌های موجود توسعه یافته‌اند. برخی از مدل‌ها که هر یک مکانیزیم‌ها و قابلیت‌های متمایزی هستند، مدل‌های پیشرو در زمینه‌هایی مانند تولید تصویر، ترجمه متن و ترکیب داده‌ها هستند. برخی از مدل‌ها مانند GAN اگرچه در حال حاضر کمی قدیمی هستند اما هنوز در حال استفاده هستند.

شبکه‌های GAN

یک شبکه مولد تخاصمی یا GAN یک چارچوب یادگیری ماشین است که دو شبکه عصبی (generator, discriminator) را در مقابل هم قرار می‌دهد از این رو نوعی تخاصم یا دشمنی در این شبکه وجود دارد. رقابت بین آنها یک بازی zero-sum است که در آن سود یک طرف به ضرر طرف دیگر منجر می‌شود.

شبکه GAN توسط Ian Goodfellow و همکارانش در دانشگاه مونترال در سال 2014 اختراع شد. آنها معماری GAN را در مقاله‌ای با عنوان Generative Adversarial Networks توصیف کردند. از آن زمان تاکنون پژوهش‌ها و کاربردهای عملی زیادی صورت گرفته است. تا زمان موفقیت Transformerها و مدل‌های مبتنی بر Diffusion، مدل‌های GAN محبوب‌ترین الگوریتم‌های هوش مصنوعی بودند.

Generative Adversarial Network

شبکه‌های GAN در معماری خود دو مدل یادگیری عمیق دارند:

Generator: شبکه عصبی که وظیفه‌ی آن ایجاد ورودی جعلی یا نمونه‌های جعلی از یک بردار تصادفی است (لیستی از متغیرهای ریاضی با مقادیر ناشناخته).

Discriminator: شبکه عصبی که وظیفه‌ی آن گرفتن یک نمونه‌ی مشخص و تصمیم گیری در مورد جعلی بودن یا واقعی بودن آن است.

شبکه‌ی discriminator یک کلاسبند باینری است که احتمالات را برمی‌گرداند-عددی بین 0 و 1. هرچقدر نتیجه به صفر نزدیک‌تر باشد، احتمال جعلی بودن خروجی بیشتر می‌شود. برعکس، اعداد نزدیک به یک، نشاندهنده‌ی احتمال واقعی بودن پیش بینی هستند.

هر دو شبکه‌ی generator, discriminator به عنوان شبکه‌های CNN (شبکه‌های عصبی کانولوشنی) پیاده سازی می‌شوند؛ به خصوص زمانی که هدف کار با تصاویر است.

بنابراین ماهیت خصمانه‌ی GANها در سناریوی تئوری بازی نهفته است که در آن شبکه generator باید با حریف رقابت کند. در این سناریو همیشه یک برنده و یک بازنده وجود دارد. هر شبکه‌ای که شکست بخورد به روز می‌شود در حالیکه رقیب آن بدون تغییر باقی می‌ماند. شبکه‌های GAN زمانی موفق می‌شوند که generator یک نمونه‌ی جعلی ایجاد کند و آنقدر قانع کننده باشد که بتواند انسان را فریب دهد. اما بازی به همین جا ختم نمی‌شود. زمان آن رسیده که discriminator به روز شود و بهتر کار کند.

مدل‌های مبتنی بر Transformer

معماری Transformer که اولین بار در مقاله‌ی 2017 گوگل معرفی شد یک فریم ورک یادگیری ماشین است که برای تسک‌های پردازش زبان طبیعی NLP بسیار موثر است. این مدل می‌آموزد که الگوها را در داده‌های توالی مانند متن نوشتاری یا زبان گفتاری پیدا کند. مدل بر اساس زمینه می‌تواند عنصر بعدی مجموعه، برای مثال کلمه‌ی بعدی در یک جمله را پیش بینی کند. این مدل برای ترجمه و تولید متن عالی است.

برخی از شناخته شده‌ترین مدل‌های مبتنی بر ترانسفورمر GPT-4 متعلق به OpenAI و Claude متعلق به Anthropic هستند.

Transformer-based architecture

بیایید نگاهی گام به گام به نحوه‌ی عملکرد یک مدل مبتنی بر ترانسفورمر بیندازیم.

Tokenization: ورودی (یک عبارت) به توکن‌ها تجزیه می‌شود (کلمات یا زیرکلماتی مانند unbeliev از unbelievable).

Embedding: توکن‌های ورودی به بردارهای عددی به نام embedding تبدیل می‌شوند. هر توکن با برداری منحصر به فرد (مجموعه‌ای از اعداد با مقادیر واقعی) نشان داده می‌شود. یک بردار نشانگر ویژگی‌های معنایی یک کلمه است و کلمات مشابه، بردارهای مشابه و نزدیک به هم دارند. برای مثال کلمه‌ی Crown به معنای تاج ممکن است با بردار [3, 103, 35] نشان داده شود در حالیکه apple به معنای سیب با [6,7,17] نشان داده شود و pear به معنای گلابی با [6.5, 6, 18] نشان داده می‌شود. البته این بردارها کاملاً گویا هستند اما بردارهای واقعی، ابعاد بسیار بیشتری دارند.

Positional Encoding: برای درک متن، ترتیب کلمات در یک جمله به اندازه‌ی خود کلمات اهمیت دارد. بنابراین در این مرحله، اطلاعات مربوط به موقعیت هر توکن در جمله در قالب یک بردار دیگر اضافه می‌شود و در embedding ورودی خلاصه شده است. نتیجه یک برداری است که معنای اولیه کلمه و موقعیت آن در جمله را منعکس می‌کند.

سپس این ورودی به شبکه عصبی transformer داده می‌شود که از دو بلوک تشکیل شده است.

مکانیزیم Self-Attention، روابط متنی بین توکن‌ها را محاسبه می‌کند. برای این منظور اهمیت هر عنصر را در سری مشخص می‌کند. همچنین مشخص می‌کند که روابط بین آنها چقدر قوی است. از نظر ریاضیاتی، روابط بین کلمات در یک عبارت مانند فواصل و زوایای بین بردارها در یک فضای برداری چندبعدی است. این مکانیزیم می‌تواند راه‌های ظریفی که ممکن است از طریق آنها عناصر داده‌ای دور در یک سری بر یکدیگر اثر بگذارند را مشخص کند.

برای مثال، در جملات «آب را از پارچ در لیوان ریختم تا پر شد و آب را از پارچ به لیوان ریختم تا خالی شد»، مکانیزیم self-attention می‌تواند معنای آن را تشخیص دهد: در مورد اول، ضمیر به لیوان اشاره دارد و در دومی به پارچ اشاره دارد.

شبکه‌ی Feedforward با استفاده از دانش مربوط به کلمات که از داده‌های آموزشی آموخته است، نمایش نشانه‌ها را اصلاح می‌کند.

مراحل self-attention و feedforward چندین بار از طریق لایه‌های پشته‌ای تکرار می‌شوند. برای مدل امکانی را فراهم می‌آورند تا الگوهای پیچیده‌تر را قبل از تولید خروجی نهایی ثبت کنند. در پایان تابع softmax برای محاسبه احتمال خروجی‌های مختلف و انتخاب محتمل‌ترین گزینه استفاده می‌شود. سپس خروجی تولید شده به ورودی اضافه می‌شود و کل فرآیند تکرار می‌شود.

مدل‌های Diffusion

یک مدل Diffusion مدل مولدی است که با تقلید از داده‌هایی که روی آنها آموزش دیده است، داده‌های جدیدی مانند تصاویر یا صدا ایجاد می‌کند.

Diffusion models

مدل Diffusion را به عنوان یک هنرمند مرمتگر در نظر بگیرید که نقاشی‌های استادان قدیمی را مطالعه کرده و اکنون می‌تواند بوم‌هایی را به همان سبک آنها نقاشی کند. مدل Diffusion تقریباً همین کار را در سه مرحله اصلی انجام می‌دهد.

انتشار یا diffusion مستقیم به تصویر اصلی، نویز اضافه می‌کند تا زمانیکه نتیجه، مجموعه‌ای بی نظم از پیکسل‌ها باشد. این فرآیند شبیه به انتشار فیزیکی است و نام این مدل هم از این فرآیند فیزیکی گرفته شده است.

اگر به قیاس خود از هنرمند-مرمتگر بازگردیم، انتشار مستقیم توسط زمان مدیریت می‌شود و نقاشی را با شبکه‌ای از ترک، غبار و چربی پوشش می‌دهد. گاهی اوقات، روی نقاشی دوباره کار می‌شود و جزئیات خاصی اضافه شده و یا جزئیات دیگری حذف می‌شوند.

مرحله‌ی یادگیری مانند مطالعه‌ی یک نقاشی برای درک مقصود اصلی استاد قدیمی است. مدل به دقت تحلیل می‌کند که نویز اضافه شده چگونه داده‌ها را تغییر می‌دهد. مسیر تبدیل از تصویر اصلی تا نسخه‌ی بی نظم آن را به دقت ردیابی می‌کند. و یاد می‌گیرد که در هر مرحله چگونه باید بین داده‌های اصلی و تحریف شده، تمایز قائل شود. این درک به مدل امکانی می‌دهد تا بتواند به طور موثر، روند را معکوس کند.

پس از یادگیری، این مدل می‌تواند داده‌های تحریف شده را از طریق فرآیند به نام انتشار معکوس، بازسازی کند. از یک نمونه‌ی نویز شروع می‌کند و تاری‌ها را گام به گام از بین می‌برد. به همان روشی که هنرمند از شر آلاینده‌ها و پس از آن لایه‌بندی رنگ خلاص می‌شود. در نتیجه داده‌های جدیدی که به داده‌ی اصلی نزدیک است تولید می‌شود. مثلاً عکسی از یک سگ اما دقیقاً همان سگی نیست که در تصویر اصلی وجود دارد.

این تکنیک، مدل‌های Diffusion را قادر می‌سازد تا تصاویر، صداها و انواع داده‌های واقعی را تولید کنند. دو ابزار DALL-E و Midjourney دو ابزار معروف تولید تصویر هستند که بر اساس مدل Diffusion  کار می‌کنند.

Variational Autoencoders (VAEs)

مدل‌های مبتنی بر VAE اولین بار در سال 2013 توسط Diederik P.Kingma و Max Welling معرفی شدند و از آن زمان به نوع محبوبی از مدل‌های مولد تبدیل شده‌اند.

Variational autoencoders

یک مدل VAE در واقع شبکه عصبی بدون نظارت است که از دو بخش تشکیل شده است: یک encoder و یک decoder. در طول مرحله‌ی آموزش، encoder یا رمزگذار یاد می‌گیرد که داده‌های ورودی را در یک بازنمایی ساده شده (به اصطلاح فضای پنهان یا latent space که ابعاد کمتری نسبت به داده‌ی اصلی دارد) فشرده سازی کند. به این ترتیب تنها ویژگی‌های اساسی ورودی اولیه را ثبت کند. هر نقطه داده با یک مقدار منحصر به فرد نمایش داده نمی‎‌شود بلکه با توزیع احتمالی مقادیر نشان داده می‌شود. این تصادفی بودن همان چیزی است که به autoencoder، ویژگی «متغیر بودن یا variational» را می‌بخشد.

بازنمایی پنهان یا latent space را به عنوان DNA یک موجود زنده در نظر بگیرید. DNA، دستورات اصلی موردنیاز برای ساخت و نگهداری یک موجود زنده را دارد. به طور مشابه، بازنمایی‌های پنهان حاوی اطلاعات اساسی از داده‌ها هستند که به مدل امکانی می‌دهند تا اطلاعات اصلی را از این بخش کدگذاری شده، بازسازی کند. اما اگر فقط کمی مولکول DNA را تغییر دهید، ارگانسیم کاملاً متفاوتی بدست خواهید آورد. به عنوان مثال آیا می‌دانستید که DNA  انسان و شامپانزه تا حدود 98-99 درصد یکسان است؟

یک decoder یا رمزگشا، بازنمایی پنهان را به عنوان ورودی می‌گیرد و فرآیند را معکوس می‌کند. اما ورودی دقیق را بازسازی نمی‎‌کند؛ در عوض، چیزی شبیه به نمونه‌های معمولی از مجموعه داده تولید می‌کند. مدل‌های VAE در تسک‌هایی مانند تولید تصویر و صدا و همچنین حذف نویز تصویر به عملکرد خوبی دست یافته‌اند.

انواع کاربردهای Generative AI همراه با مثال و موارد استفاده

حوزه‌ی Generative AI کاربردهای عملی فراوانی در حوزه‌های مختلف مانند بینایی ماشین دارد که در آن می‌تواند تکنیک Data augmentation را بهبود بخشد. پتانسیل مدل مولد واقعاً نامحدود است. در ادامه چند مورد از کاربردهای برجسته‌ی این حوزه را خواهید دید که در حال حاضر نتایج شگفت انگیزی ارائه کرده‌اند.

تولید تصویر

برجسته‌ترین مورد استفاده Generative AI، ایجاد تصاویر جعلی است که شبیه به تصاویر واقعی هستند. برای مثال در سال 2017، Tero Karras دانشمند برجسته در NVIDIA مقاله‌ای با نام “Progressive Growing of GANs for Improved Quality, Stability and Variation» منتشر کرد.

 

Image generation

در این مقاله، تولید تصاویر واقعی از چهره‌های انسان نشان داده شد.

ترجمه‌ی تصویر به تصویر

همانطور که از نام این حوزه پیداست، Generative AI یک نوع تصویر را به نوعی دیگر تبدیل می‌کند. این مجموعه‌ای از انواع ترجمه تصویر به تصویر است.

انتقال سبک (style transfer): این تسک شامل استخراج سبک از یک نقاشی معروف و اعمال آن بر روی تصویر دیگر است. برای مثال می توانیم یک عکس واقعی که در شهر کلن آلمان گرفته‌ایم را به نقاشی با سبک Van Gogh تبدیل کنیم.

Style Transfer

تبدیل اسکیس به تصاویر واقعی: در اینجا کاربر با یک طراحی پراکنده و دسته بندی شی موردنظر شروع می‌کند و سپس شبکه مولد، تکمیل‌های قابل قبول خود را توصیه می‌کند و یک تصویر ترکیبی مربوط را به عنوان خروجی ارائه می‌دهد.

Image to Image translation

ترجمه متن به تصویر

این رویکرد، تصاویر مختلف (واقعی، نقاشی و …) از توصیفات متنی اشیا تولید می‌کند. محبوب‌ترین تولید کننده‌های تصویر هوش مصنوعی DALL-E  از OpenAI و Stable Diffusion هستند.

برای ساختن تصویری که در ادامه می‌بینید، ما به مدل Stable Diffusion، توصیفات زیر را ارائه کردیم:

«رویای زمان گذشته، نقاشی رنگ روغن، سفید آبی قرمز، آبرنگ، بوم، ماهی و حیوانات»

تصویر نتیجه، کامل نیست اما کاملاً چشمگیر است.

Text To Image_translation

تولید صدا

مدل‌های Generative AI همچنین می‌توانند داده‌های صوتی را پردازش کنند. برای انجام این کار، ابتدا باید سیگنال‌های صوتی را به بازنمایی‌های دوبعدی تصویر مانند به نام spectrogram تبدیل کنید. این به ما امکانی می‌دهد تا از الگوریتم‌هایی استفاده کنیم که به طور خاص برای کار با تصاویر طراحی شده‌اند مانند CNN.

Voice Generation

تولید ویدیو

ویدیو، مجموعه‌ای از تصاویر متحرک است. بنابراین به طور منطقی به همان روشی که تصاویر تولید و تبدیل می‌شوند می‌توان فیلم نیز تولید کرد.  سال 2023 با پیشرفت‌هایی در Large Language Model (LLM) و رونق فناوری‌های تولید تصویر همراه بود. سال 2024 شاهد پیشرفت‌های قابل توجهی در تولید ویدیو بودیم. در ابتدای سال 2024، OpenAI یک مدل متن به ویدیوی واقعاً چشمگیر و قدرتمند به نام Sora را معرفی کرد.

Video Generation

Sora یک مدل مبتنی بر diffusion است که از نویز استاتیک، ویدیو تولید می‌کند. این مدل می‌تواند صحنه‌های پیچیده را با شخصیت‌های متعدد، حرکات خاص و جزئیات دقیق سوژه و پس زمینه بسازد. مشابه مدل‌های GPT، sora همچنین از معماری ترانسفورمر برای کار با پیام‌های متنی استفاده می‌کند. علاوه بر تولید ویدیو از متن، همچنین Sora می‌تواند تصاویر ثابت را متحرک کند.

جنبه‌ی تاریک Generative AI: آیا همینقدر تاریک و ترسناک است؟

تکنولوژی هر چه که باشد می‌تواند از آن برای اهداف خوب یا بد استفاده کرد. البته هوش مصنوعی مولد از این قاعده مستثنی نیست. در حال حاضر چندین چالش وجود دارد.

تصاویر شبه واقعی و deep fakes: فناوری deep fake که در ابتدا برای اهداف سرگرمی ایجاد شد، اما شهرت بدی پیدا کرده است. این فناوری از طریق نرم افزارهایی مانند Reface, FakeApp و DeepFaceLab به صورت عمومی در دسترس همه‌ی کاربران قرار می‌گیرد.

به عنوان مثال در مارس 2022، یک ویدیوی جعلی از Volodymyr Zelensky رئیس جمهور اوکراین منتشر شد. او در این ویدیو به مردم خود می‌گفت که تسلیم شوند. اگرچه با چشم غیرمسلح می‌شد جعلی بودن ویدیو را تشخیص داد اما این ویدیو به شبکه‌های اجتماعی رسید و مشکلات زیادی به همراه داشت.

خطر از دست دادن کنترل: وقتی این را خطر را بیان می‌کنیم، منظورمان این نیست که فردا ماشین‌ها علیه بشریت قیام می‌کنند و جهان را ویران می‌کنند. بیایید صادق باشیم ما خودمان در این کار خیلی خوب هستیم 😊 . با این حال از آنجاییکه Generative AI می‌تواند خودآموزی کند، کنترل رفتار آن دشوار است. خروجی ارائه شده اغلب ممکن است از آنچه که شما انتظار دارید خیلی دور باشند.

اما همانطور که می‌دانیم، فناوری‌های بدون چالش قادر به توسعه و رشد نخواهند بود. علاوه بر این responsible AI امکانی فراهم می‌کند تا از معایب نوآوری‌هایی مانند Generative AI اجتناب شود یا به طور کامل کاهش یابد.

به هر حال نگران نباشید، این پستی که خواندید توسط هوش مصنوعی ایجاد نشده بود😊

 

منبع

 


دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

code