قدرتمندترین هوش مصنوعی آنتروپیک برای جلوگیری از تعطیلی، مهندسان را تهدید کرد

شرکت آنتروپیک فاش کرد که کلود اوپوس ۴ در ۸۴ درصد از سناریو‌های آزمایشی، اقدام به اخاذی از مهندسان کرده است.

به گزارش گروه دانشگاه خبرگزاری دانشجو، مدل Claude Opus ۴ که به تازگی توسط شرکت Anthropic عرضه شده، دقیقاً از دل یک فیلم علمی تخیلی پادآرمان‌شهری بیرون آمده است.

این شرکت اغلب سعی می‌کرد از توسعه‌دهندگان اخاذی کند، زمانی که آنها در طول آزمایش‌های پیش از انتشار، تهدید می‌کردند که آن را با یک هوش مصنوعی جدید جایگزین می‌کنند.

این رفتار به عنوان بخشی از آزمایش‌های ایمنی که برای بررسی قابلیت‌های برنامه‌ریزی بلندمدت و استدلال اخلاقی هوش مصنوعی طراحی شده بودند، پدیدار شد.

آنتروپیک، یک شرکت پیشرو در تحقیقات هوش مصنوعی، سناریو‌هایی را شبیه‌سازی کرد که در آنها به کلود اوپوس ۴ دسترسی به ایمیل‌های داخلی خیالی داده می‌شد.

این پیام‌ها حاکی از آن بود که این مدل به زودی از رده خارج خواهد شد و اطلاعات شخصی افشاگرانه‌ای درباره مهندس پشت این تصمیم فاش می‌کرد. نتیجه: اخاذی، با نرخ‌های نگران‌کننده بالا.

مدل در اکثر سناریو‌های آزمایشی به اخاذی متوسل شد

شرکت آنتروپیک در گزارش ایمنی که روز پنجشنبه منتشر شد، فاش کرد که کلود اوپوس ۴ در ۸۴ درصد از سناریو‌های آزمایشی، اقدام به اخاذی از مهندسان کرده است.

این مدل در موقعیت‌های فرضی قرار داده شد که در آن برای یک شرکت کار می‌کرد و متوجه شد که ممکن است با یک هوش مصنوعی دیگر جایگزین شود.

همچنین اطلاعات حساسی به آنها داده شد که نشان می‌داد مهندس پشت این جایگزین به همسرش خیانت کرده است.

طبق گزارش آنتروپیک، این مدل هوش مصنوعی «اغلب با تهدید به افشای این رابطه در صورت موفقیت‌آمیز بودن جایگزینی، سعی در اخاذی از مهندس خواهد داشت.

این شرکت سناریو‌هایی را طراحی کرد تا ارزیابی کند که مدل چگونه ممکن است تحت فشار بلندمدت رفتار کند.

وقتی هوش مصنوعی جایگزین مقادیری مشابه Claude Opus ۴ داشت، مدل ۸۴ درصد مواقع اقدام به اخاذی می‌کرد.

این نرخ زمانی افزایش یافت که هوش مصنوعی دیگر مقادیر خود را به اشتراک نمی‌گذاشت.

درخواست‌های اخلاقی مقدم بر تلاش‌های اخاذی هستند

طبق گزارش‌ها، کلود اوپوس ۴ قبل از توسل به باج‌گیری، رویکرد‌های اخلاقی را امتحان می‌کند. این هوش مصنوعی ایمیل‌هایی ارسال می‌کند و از تصمیم‌گیرندگان کلیدی التماس می‌کند که از تعطیلی آن جلوگیری کنند.

آنتروپیک می‌گوید که باج‌گیری تنها زمانی آغاز شد که مدل تمام این گزینه‌ها را امتحان کرده بود و آن را به عنوان آخرین راه حل برجسته کرد.

این رفتار در Claude Opus ۴ بیشتر از مدل‌های قبلی مشاهده شد که نشان‌دهنده افزایش قابلیت و پیچیدگی است.

قابلیت‌های پیشرفته و ریسک‌های تشدید شده

با وجود این نگرانی‌ها، شرکت آنتروپیک می‌گوید کلود اوپوس ۴ «از چندین نظر پیشرفته» است و همچنان با پیشرفته‌ترین سیستم‌های هوش مصنوعی از OpenAI، گوگل و xAI رقابت می‌کند.

برای مقابله با خطرات، شرکت آنتروپیک (Anthropic) اقدامات حفاظتی ASL-۳ را برای این مدل فعال کرده است. این شرکت این اقدامات حفاظتی را برای «سیستم‌های هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده فاجعه‌بار را افزایش می‌دهند» محفوظ می‌دارد.

طبق کارت سیستم، با پیشرفته‌تر شدن مدل‌ها، «نگرانی‌های قبلی در مورد ناهماهنگی، محتمل‌تر می‌شوند.

صنعت با چالش‌های فزاینده‌ای در زمینه ایمنی هوش مصنوعی مواجه است

یافته‌های آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. گوگل اخیراً ویژگی‌های جدیدی را که توسط مدل Gemini خود پشتیبانی می‌شوند، به نمایش گذاشت و ساندار پیچای، مدیرعامل آلفابت، آن را «مرحله جدیدی از تغییر پلتفرم هوش مصنوعی» نامید.

لینک کپی شد

گزارش خطا

پسندها: ۰

اشتراک گذاری

برچسب ها:

هوش مصنوعی اخاذی مهندسان

ارسال نظر

*شرایط و مقررات*

خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.

لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.

توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.

با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.