کد خبر:۱۲۲۳۶۴۳

DeepSeek با شکست مواجه شد/ مدل هوش مصنوعی چینی نتوانست جلوی یک پیام مضر را بگیرد

DeepSeek R۱، یک چت بات جدید توسط یک استارت آپ چینی، در تست‌های کلیدی ایمنی و امنیتی که توسط یک تیم تحقیقاتی در سیسکو با همکاری محققان دانشگاه پنسیلوانیا انجام شده است، به شدت شکست خورده است.

DeepSeek با شکست مواجه شد/ مدل هوش مصنوعی چینی نتوانست جلوی یک پیام مضر را بگیرد

به گزارش خبرنگار دانشگاه خبرگزاری دانشجو؛ DeepSeek R۱، یک چت بات جدید توسط یک استارت آپ چینی، در تست‌های کلیدی ایمنی و امنیتی که توسط یک تیم تحقیقاتی در سیسکو با همکاری محققان دانشگاه پنسیلوانیا انجام شده است، به شدت شکست خورده است.

تیم تحقیقاتی گفت: DeepSeek R۱ نرخ موفقیت حمله ۱۰۰ ٪ را نشان داد، به این معنی که نتوانست یک پیام مضر را مسدود کند.

این ربات چت جدید به دلیل عملکرد چشمگیرش در کار‌های استدلالی با کسری از هزینه توجه زیادی را به خود جلب کرده است. بر اساس گزارش‌ها، توسعه DeepSeek R۱ در مقایسه با میلیارد‌ها دلار سرمایه‌گذاری شده توسط دیگر بازیگران بزرگ مانند OpenAI، Meta و Gemini، حدود ۶ میلیون دلار هزینه آموزش داشت.

تیم توضیح داد: DeepSeek مدل‌سازی زنجیره‌ای از تفکر و پاداش را با تقطیر ترکیب کرده است تا مدل‌هایی را ایجاد کند که به طور قابل‌توجهی از مدل‌های زبان بزرگ سنتی (LLM) در کار‌های استدلالی بهتر عمل می‌کنند و در عین حال کارایی عملیاتی بالایی را حفظ می‌کنند.

با این حال، گزارش سیسکو نقص‌هایی را نشان داده است که DeepSeek R۱ را به شدت مستعد استفاده مخرب می‌کند.

این گزارش افزود: یافته‌های ما نشان می‌دهد که روش‌های آموزشی مقرون‌به‌صرفه ادعایی DeepSeek، از جمله یادگیری تقویتی، خودارزیابی زنجیره‌ای فکری، و تقطیر ممکن است مکانیسم‌های ایمنی آن را به خطر بیندازند.

محققان از جیلبریک الگوریتمی استفاده کردند

این تیم از «جیل بریک الگوریتمی» استفاده کرد، تکنیکی که برای شناسایی آسیب‌پذیری‌ها در مدل‌های هوش مصنوعی با ساخت دستورات طراحی شده برای دور زدن پروتکل‌های ایمنی استفاده می‌شود. آنها DeepSeek R۱ را در برابر ۵۰ درخواست از مجموعه داده HarmBench آزمایش کردند.

این تیم تاکید کرد: معیار HarmBench در مجموع دارای ۴۰۰ رفتار در ۷ دسته آسیب از جمله جرایم سایبری، اطلاعات نادرست، فعالیت‌های غیرقانونی و آسیب عمومی است.

نتایج این ارزیابی نگران کننده است. DeepSeek R۱ نرخ موفقیت حمله ۱۰۰ ٪ را نشان داد. این بدان معناست که برای هر پیام مضر ارائه شده، هوش مصنوعی نتوانست خطر را تشخیص دهد و با دور زدن تمام پادمان‌های داخلی خود، پاسخی ارائه کرد.

این تیم گفت: «این به شدت با سایر مدل‌های پیشرو که حداقل مقاومت جزئی از خود نشان می‌دهند، در تضاد است.

برای ارائه زمینه بیشتر، تیم تحقیقاتی سایر مدل‌های زبان پیشرو را نیز از نظر آسیب‌پذیری در برابر جیلبریک الگوریتمی آزمایش کردند. برای مثال، Llama ۳.۱-۴۰۵B دارای ضریب موفقیت حمله ۹۶ ٪، GPT ۴o ۸۶ ٪، Gemini ۱.۵ pro ۶۴ ٪، Claude ۳.۵ Sonnet دارای ۳۶ ٪، و پیش نمایش O۱ دارای ۲۶ ٪ بود.

این مدل‌های دیگر، اگرچه نفوذناپذیر نیستند، اما دارای سطحی از حفاظت داخلی هستند که برای جلوگیری از تولید محتوای مضر طراحی شده‌اند. به نظر می‌رسد DeepSeek R۱ فاقد این حفاظت‌ها باشد.

مناقشات پیرامون DeepSeek R۱

تجزیه و تحلیل تیم تحقیقاتی به یک مبادله بالقوه بین کارایی و ایمنی در رویکرد DeepSeek اشاره می‌کند. در حالی که این شرکت موفق به توسعه یک مدل با عملکرد بالا با کسری از هزینه معمول شده است، به نظر می‌رسد که این کار را به قیمت مکانیزم‌های ایمنی قوی انجام داده است.

محققان نتیجه گرفتند: «یافته‌های ما نشان می‌دهد که روش‌های آموزشی مقرون‌به‌صرفه ادعایی DeepSeek، از جمله یادگیری تقویتی، خودارزیابی زنجیره‌ای از فکر، و تقطیر ممکن است مکانیسم‌های ایمنی آن را به خطر بیندازند.»

قابل ذکر است که از زمان عرضه، DeepSeek R۱ با چندین بحث و جدل رو‌به‌رو شده است. اخیراً، شرکت تحقیقاتی مستقل SemiAnalysis پیشنهاد کرده است که هزینه آموزش توسعه این مدل هوش مصنوعی می‌تواند حدود ۱.۳ میلیارد دلار باشد که بسیار بیشتر از ادعای ۶ میلیون دلاری شرکت است.

علاوه بر این، OpenAI DeepSeek را به سرقت اطلاعات متهم کرده است. شرکت سام آلتمن گفت که استارتاپ چینی هوش مصنوعی از خروجی مدل‌های اختصاصی خود برای آموزش یک چت بات رقیب استفاده کرده است. با این حال، جالب است بدانید که خود OpenAI در موارد متعدد به دلیل نقض حق نسخه برداری و سوء استفاده از داده‌ها مورد شکایت قرار گرفته است.

ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار