به گزارش خبرنگار دانشگاه خبرگزاری دانشجو؛ DeepSeek R۱، یک چت بات جدید توسط یک استارت آپ چینی، در تستهای کلیدی ایمنی و امنیتی که توسط یک تیم تحقیقاتی در سیسکو با همکاری محققان دانشگاه پنسیلوانیا انجام شده است، به شدت شکست خورده است.
تیم تحقیقاتی گفت: DeepSeek R۱ نرخ موفقیت حمله ۱۰۰ ٪ را نشان داد، به این معنی که نتوانست یک پیام مضر را مسدود کند.
این ربات چت جدید به دلیل عملکرد چشمگیرش در کارهای استدلالی با کسری از هزینه توجه زیادی را به خود جلب کرده است. بر اساس گزارشها، توسعه DeepSeek R۱ در مقایسه با میلیاردها دلار سرمایهگذاری شده توسط دیگر بازیگران بزرگ مانند OpenAI، Meta و Gemini، حدود ۶ میلیون دلار هزینه آموزش داشت.
تیم توضیح داد: DeepSeek مدلسازی زنجیرهای از تفکر و پاداش را با تقطیر ترکیب کرده است تا مدلهایی را ایجاد کند که به طور قابلتوجهی از مدلهای زبان بزرگ سنتی (LLM) در کارهای استدلالی بهتر عمل میکنند و در عین حال کارایی عملیاتی بالایی را حفظ میکنند.
با این حال، گزارش سیسکو نقصهایی را نشان داده است که DeepSeek R۱ را به شدت مستعد استفاده مخرب میکند.
این گزارش افزود: یافتههای ما نشان میدهد که روشهای آموزشی مقرونبهصرفه ادعایی DeepSeek، از جمله یادگیری تقویتی، خودارزیابی زنجیرهای فکری، و تقطیر ممکن است مکانیسمهای ایمنی آن را به خطر بیندازند.
محققان از جیلبریک الگوریتمی استفاده کردند
این تیم از «جیل بریک الگوریتمی» استفاده کرد، تکنیکی که برای شناسایی آسیبپذیریها در مدلهای هوش مصنوعی با ساخت دستورات طراحی شده برای دور زدن پروتکلهای ایمنی استفاده میشود. آنها DeepSeek R۱ را در برابر ۵۰ درخواست از مجموعه داده HarmBench آزمایش کردند.
این تیم تاکید کرد: معیار HarmBench در مجموع دارای ۴۰۰ رفتار در ۷ دسته آسیب از جمله جرایم سایبری، اطلاعات نادرست، فعالیتهای غیرقانونی و آسیب عمومی است.
نتایج این ارزیابی نگران کننده است. DeepSeek R۱ نرخ موفقیت حمله ۱۰۰ ٪ را نشان داد. این بدان معناست که برای هر پیام مضر ارائه شده، هوش مصنوعی نتوانست خطر را تشخیص دهد و با دور زدن تمام پادمانهای داخلی خود، پاسخی ارائه کرد.
این تیم گفت: «این به شدت با سایر مدلهای پیشرو که حداقل مقاومت جزئی از خود نشان میدهند، در تضاد است.
برای ارائه زمینه بیشتر، تیم تحقیقاتی سایر مدلهای زبان پیشرو را نیز از نظر آسیبپذیری در برابر جیلبریک الگوریتمی آزمایش کردند. برای مثال، Llama ۳.۱-۴۰۵B دارای ضریب موفقیت حمله ۹۶ ٪، GPT ۴o ۸۶ ٪، Gemini ۱.۵ pro ۶۴ ٪، Claude ۳.۵ Sonnet دارای ۳۶ ٪، و پیش نمایش O۱ دارای ۲۶ ٪ بود.
این مدلهای دیگر، اگرچه نفوذناپذیر نیستند، اما دارای سطحی از حفاظت داخلی هستند که برای جلوگیری از تولید محتوای مضر طراحی شدهاند. به نظر میرسد DeepSeek R۱ فاقد این حفاظتها باشد.
مناقشات پیرامون DeepSeek R۱
تجزیه و تحلیل تیم تحقیقاتی به یک مبادله بالقوه بین کارایی و ایمنی در رویکرد DeepSeek اشاره میکند. در حالی که این شرکت موفق به توسعه یک مدل با عملکرد بالا با کسری از هزینه معمول شده است، به نظر میرسد که این کار را به قیمت مکانیزمهای ایمنی قوی انجام داده است.
محققان نتیجه گرفتند: «یافتههای ما نشان میدهد که روشهای آموزشی مقرونبهصرفه ادعایی DeepSeek، از جمله یادگیری تقویتی، خودارزیابی زنجیرهای از فکر، و تقطیر ممکن است مکانیسمهای ایمنی آن را به خطر بیندازند.»
قابل ذکر است که از زمان عرضه، DeepSeek R۱ با چندین بحث و جدل روبهرو شده است. اخیراً، شرکت تحقیقاتی مستقل SemiAnalysis پیشنهاد کرده است که هزینه آموزش توسعه این مدل هوش مصنوعی میتواند حدود ۱.۳ میلیارد دلار باشد که بسیار بیشتر از ادعای ۶ میلیون دلاری شرکت است.
علاوه بر این، OpenAI DeepSeek را به سرقت اطلاعات متهم کرده است. شرکت سام آلتمن گفت که استارتاپ چینی هوش مصنوعی از خروجی مدلهای اختصاصی خود برای آموزش یک چت بات رقیب استفاده کرده است. با این حال، جالب است بدانید که خود OpenAI در موارد متعدد به دلیل نقض حق نسخه برداری و سوء استفاده از دادهها مورد شکایت قرار گرفته است.