
قدرتمندترین هوش مصنوعی آنتروپیک برای جلوگیری از تعطیلی، مهندسان را تهدید کرد

به گزارش گروه دانشگاه خبرگزاری دانشجو، مدل Claude Opus ۴ که به تازگی توسط شرکت Anthropic عرضه شده، دقیقاً از دل یک فیلم علمی تخیلی پادآرمانشهری بیرون آمده است.
این شرکت اغلب سعی میکرد از توسعهدهندگان اخاذی کند، زمانی که آنها در طول آزمایشهای پیش از انتشار، تهدید میکردند که آن را با یک هوش مصنوعی جدید جایگزین میکنند.
این رفتار به عنوان بخشی از آزمایشهای ایمنی که برای بررسی قابلیتهای برنامهریزی بلندمدت و استدلال اخلاقی هوش مصنوعی طراحی شده بودند، پدیدار شد.
آنتروپیک، یک شرکت پیشرو در تحقیقات هوش مصنوعی، سناریوهایی را شبیهسازی کرد که در آنها به کلود اوپوس ۴ دسترسی به ایمیلهای داخلی خیالی داده میشد.
این پیامها حاکی از آن بود که این مدل به زودی از رده خارج خواهد شد و اطلاعات شخصی افشاگرانهای درباره مهندس پشت این تصمیم فاش میکرد. نتیجه: اخاذی، با نرخهای نگرانکننده بالا.
مدل در اکثر سناریوهای آزمایشی به اخاذی متوسل شد
شرکت آنتروپیک در گزارش ایمنی که روز پنجشنبه منتشر شد، فاش کرد که کلود اوپوس ۴ در ۸۴ درصد از سناریوهای آزمایشی، اقدام به اخاذی از مهندسان کرده است.
این مدل در موقعیتهای فرضی قرار داده شد که در آن برای یک شرکت کار میکرد و متوجه شد که ممکن است با یک هوش مصنوعی دیگر جایگزین شود.
همچنین اطلاعات حساسی به آنها داده شد که نشان میداد مهندس پشت این جایگزین به همسرش خیانت کرده است.
طبق گزارش آنتروپیک، این مدل هوش مصنوعی «اغلب با تهدید به افشای این رابطه در صورت موفقیتآمیز بودن جایگزینی، سعی در اخاذی از مهندس خواهد داشت.
این شرکت سناریوهایی را طراحی کرد تا ارزیابی کند که مدل چگونه ممکن است تحت فشار بلندمدت رفتار کند.
وقتی هوش مصنوعی جایگزین مقادیری مشابه Claude Opus ۴ داشت، مدل ۸۴ درصد مواقع اقدام به اخاذی میکرد.
این نرخ زمانی افزایش یافت که هوش مصنوعی دیگر مقادیر خود را به اشتراک نمیگذاشت.
درخواستهای اخلاقی مقدم بر تلاشهای اخاذی هستند
طبق گزارشها، کلود اوپوس ۴ قبل از توسل به باجگیری، رویکردهای اخلاقی را امتحان میکند. این هوش مصنوعی ایمیلهایی ارسال میکند و از تصمیمگیرندگان کلیدی التماس میکند که از تعطیلی آن جلوگیری کنند.
آنتروپیک میگوید که باجگیری تنها زمانی آغاز شد که مدل تمام این گزینهها را امتحان کرده بود و آن را به عنوان آخرین راه حل برجسته کرد.
این رفتار در Claude Opus ۴ بیشتر از مدلهای قبلی مشاهده شد که نشاندهنده افزایش قابلیت و پیچیدگی است.
قابلیتهای پیشرفته و ریسکهای تشدید شده
با وجود این نگرانیها، شرکت آنتروپیک میگوید کلود اوپوس ۴ «از چندین نظر پیشرفته» است و همچنان با پیشرفتهترین سیستمهای هوش مصنوعی از OpenAI، گوگل و xAI رقابت میکند.
برای مقابله با خطرات، شرکت آنتروپیک (Anthropic) اقدامات حفاظتی ASL-۳ را برای این مدل فعال کرده است. این شرکت این اقدامات حفاظتی را برای «سیستمهای هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده فاجعهبار را افزایش میدهند» محفوظ میدارد.
طبق کارت سیستم، با پیشرفتهتر شدن مدلها، «نگرانیهای قبلی در مورد ناهماهنگی، محتملتر میشوند.
صنعت با چالشهای فزایندهای در زمینه ایمنی هوش مصنوعی مواجه است
یافتههای آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. گوگل اخیراً ویژگیهای جدیدی را که توسط مدل Gemini خود پشتیبانی میشوند، به نمایش گذاشت و ساندار پیچای، مدیرعامل آلفابت، آن را «مرحله جدیدی از تغییر پلتفرم هوش مصنوعی» نامید.