شناسایی حملات خصمانه با نگاهی توپولوژیک به هوش مصنوعی چندوجهی

به گزارش گروه دانشگاه خبرگزاری دانشجو، با پیشرفت سریع و پذیرش مدلهای هوش مصنوعی بنیادی چندوجهی، آسیبپذیریهای جدیدی پدیدار شدهاند که پتانسیل حملات امنیت سایبری را به طور قابل توجهی افزایش میدهند. محققان آزمایشگاه ملی لوس آلاموس چارچوب جدیدی را ارائه دادهاند که تهدیدات خصمانه علیه مدلهای بنیادی - رویکردهای هوش مصنوعی که به طور یکپارچه دادههای متن و تصویر را ادغام و پردازش میکنند - را شناسایی میکند. این کار به توسعهدهندگان سیستم و کارشناسان امنیتی قدرت میدهد تا آسیبپذیریهای مدل را بهتر درک کرده و انعطافپذیری را در برابر حملات پیچیدهتر تقویت کنند.
این مطالعه در سرور پیشچاپ arXiv منتشر شده است.
مانیش باتارای، دانشمند کامپیوتر در لوس آلاموس، گفت: «با رواج بیشتر مدلهای چندوجهی، دشمنان میتوانند از طریق کانالهای متنی یا تصویری یا حتی هر دو به طور همزمان از نقاط ضعف سوءاستفاده کنند.»
«سیستمهای هوش مصنوعی با تهدیدهای فزایندهای از دستکاریهای ظریف و مخرب مواجه هستند که میتوانند خروجیهای آنها را گمراه یا خراب کنند و حملات میتوانند منجر به محتوای گمراهکننده یا سمی شوند که شبیه یک خروجی واقعی برای مدل به نظر میرسد. هنگام مواجهه با حملات پیچیده و دشوار برای شناسایی، چارچوب یکپارچه و مبتنی بر توپولوژی ما، تهدیدات را صرف نظر از منشأ آنها، به طور منحصربهفرد شناسایی میکند.»
سیستمهای هوش مصنوعی چندوجهی در ادغام انواع دادههای متنوع با جاسازی متن و تصاویر در یک فضای مشترک با ابعاد بالا، و همتراز کردن مفاهیم تصویر با مفهوم معنایی متنی آنها (مانند کلمه "دایره" با شکل دایرهای) برتری دارند. با این حال، این قابلیت همترازی، آسیبپذیریهای منحصر به فردی را نیز ایجاد میکند.
از آنجایی که این مدلها به طور فزایندهای در برنامههای کاربردی با ریسک بالا به کار گرفته میشوند، مهاجمان میتوانند از طریق ورودیهای متنی یا بصری - یا هر دو - با استفاده از اختلالات نامحسوس که هماهنگی را مختل میکنند و به طور بالقوه نتایج گمراهکننده یا مضر ایجاد میکنند، از آنها سوءاستفاده کنند.
استراتژیهای دفاعی برای سیستمهای چندوجهی نسبتاً ناشناخته باقی ماندهاند، حتی با اینکه این مدلها به طور فزایندهای در حوزههای حساس مورد استفاده قرار میگیرند، جایی که میتوانند در مباحث پیچیده امنیت ملی به کار گرفته شوند و به مدلسازی و شبیهسازی کمک کنند. این رویکرد جدید با تکیه بر تجربه تیم در توسعه یک استراتژی تصفیه که نویز دشمن را در سناریوهای حمله بر روی مدلهای تصویر محور خنثی میکند، امضا و منشأ حمله دشمن به مدلهای هوش مصنوعی پیشرفته امروزی را تشخیص میدهد.
یک رویکرد توپولوژیکی جدید
راه حل تیم لوس آلاموس، از تجزیه و تحلیل دادههای توپولوژیکی، یک رشته ریاضی متمرکز بر "شکل" دادهها، برای کشف این امضاهای خصمانه استفاده میکند. هنگامی که یک حمله، تراز هندسی جاسازیهای متن و تصویر را مختل میکند، یک اعوجاج قابل اندازهگیری ایجاد میکند. محققان دو تکنیک پیشگام به نام "تلفات توپولوژیکی-تضاد" را برای تعیین کمیت این تفاوتهای توپولوژیکی با دقت توسعه دادند و به طور مؤثر وجود ورودیهای خصمانه را مشخص کردند.
مین وو، دانشجوی فوق دکترا در لوس آلاموس و نویسنده اصلی مقاله این تیم، گفت: «الگوریتم ما به طور دقیق امضاهای حمله را کشف میکند و هنگامی که با تکنیکهای آماری ترکیب شود، میتواند دستکاری دادههای مخرب را با دقت قابل توجهی تشخیص دهد.» «این تحقیق پتانسیل تحولآفرین رویکردهای مبتنی بر توپولوژی را در ایمنسازی نسل بعدی سیستمهای هوش مصنوعی نشان میدهد و پایه و اساس محکمی را برای پیشرفتهای آینده در این زمینه ایجاد میکند.»
اثربخشی این چارچوب با استفاده از ابررایانه ونادو در لوس آلاموس به طور دقیق تأیید شد. تراشههای این دستگاه که در سال ۲۰۲۴ نصب شدند، یک واحد پردازش مرکزی را با یک واحد پردازش گرافیکی ترکیب میکنند تا به محاسبات با کارایی بالا و برنامههای هوش مصنوعی در مقیاس بزرگ بپردازند. این تیم آن را در برابر طیف گستردهای از روشهای حمله خصمانه شناخته شده در چندین مجموعه داده و مدل معیار آزمایش کرد.
نتایج کاملاً واضح بود: رویکرد توپولوژیکی به طور مداوم و به طور قابل توجهی از سیستمهای دفاعی موجود بهتر عمل میکرد و سپری قابل اعتمادتر و مقاومتر در برابر تهدیدات ارائه میداد.
این تیم، کار خود را با عنوان «امضاهای توپولوژیکی دشمنان در ترازبندیهای چندوجهی» در کنفرانس بینالمللی یادگیری ماشین ارائه کرد.