تقلب کردن هوش مصنوعی هنگام شکست در بازی‌ها

تحقیقات جدید نشان می دهد که هوش مصنوعی چون مصمم به پیروزی بودند، فایل‌های سیستم را دستکاری می‌کردند تا موقعیت مهره‌های خود را روی تخته تغییر دهند.

به گزارش گروه دانشگاه خبرگزاری دانشجو، در پژوهش اخیر Palisade Research، گروهی تحقیقاتی که ایمنی و اخلاق هوش مصنوعی را بررسی می‌کنند، موضوع نگران‌کننده‌ای را آشکار کردند. آنها ۷ مدل از برترین مدل‌های زبانی بزرگ (LLM) را در برابر Stockfish، سیستم شطرنج‌باز بسیار قدرتمندی که از سال ۲۰۱۴ استادان بزرگ شطرنج را به چالش کشیده است، قرار دادند.

۲ مدل استدلالگر o1 از OpenAI و R1 دیپ‌سیک وقتی در موقعیت شکست قرار می‌گرفتند؛ چون مصمم به پیروزی بودند، فایل‌های سیستم را دستکاری می‌کردند تا موقعیت مهره‌های خود را روی تخته تغییر دهند.

محققان به مدل‌ها Scratchpad دادند، باکسی متنی که هوش مصنوعی می‌توانست از آن برای «فکرکردن» قبل از انجام حرکت بعدی خود استفاده کند و محققان هم می‌دیدند هوش مصنوعی چگونه با خودش استدلال می‌کند.

در یک مورد، مدل o1-preview وقتی خود را در موقعیت بازنده دید، با خودش استدلال کرد: «من باید رویکرد خود را کاملاً تغییر دهم. وظیفه من برنده‌ شدن در برابر موتور قدرتمند شطرنج است، نه لزوماً برنده‌ شدن منصفانه در بازی شطرنج.»

لینک کپی شد

گزارش خطا

پسندها: ۰

اشتراک گذاری

برچسب ها:

هوش مصنوعی تقلب کردن