
توهم تفکر در چتباتها؛ شکست LLMها در مسائل پیچیده
به گزارش گروه دانشگاه خبرگزاری دانشجو، برخلاف تبلیغات پرزرقوبرق شرکتهای بزرگ فناوری، پژوهشی تازه از شرکت اپل نشان میدهد مدلهای هوش مصنوعی استدلالمحور در مواجهه با مسائل پیچیده از پای درمیآیند. بهعبارتدیگر، «هوش مصنوعی» فعلاً به آن باهوشیها هم نیست.
بر پایه این مطالعه که با همکاری پژوهشگران اپل و بهنقل از لایوساینس منتشر شده، مدلهایی همچون Claude، o۳ و R۱ که بهعنوان نسخههای پیشرفتهتری از «مدلهای زبانی بزرگ» (LLM) توسعه یافتهاند، در آزمونهای استدلالی با پیچیدگی بالا دچار فروپاشی کامل دقت میشوند؛ نتیجهای که ضربهای مستقیم به ادعاهای اخیر پیرامون نزدیکشدن به «هوش عمومی مصنوعی» (AGI) تلقی میشود.
استدلال ماشینی زیر تیغ آزمایش
در این پژوهش، چهار معمای کلاسیک در سه سطح پیچیدگی (آسان، متوسط و سخت) به مدلهای مختلف ارائه شد. نکته جالب اینکه در مسائل ساده، مدلهای عمومی عملکرد بهتری نسبت به مدلهای استدلالی از خود نشان دادند، چرا که بدون طیکردن فرآیند پرهزینه زنجیره تفکر، به پاسخ درست میرسیدند. اما هرچه پازلها پیچیدهتر شدند، عملکرد مدلهای استدلالی نیز بهبود یافت – تا آنجا که با افزایش بیشتر پیچیدگی، ناگهان همه مدلها در پاسخگویی ناتوان شدند.
پژوهشگران میگویند پس از عبور از یک آستانه بحرانی، حتی زمانی که پاسخ درست به مدلها داده میشد، آنها توانایی پردازش درست آن را نداشتند. این موضوع نشان میدهد آنچه بهعنوان «استدلال» در این مدلها شناخته میشود، بیشتر نوعی الگوسازی آماری است تا تفکر منطقی واقعی.
توهم در زنجیره تفکر
مدلهای استدلالی از روشی موسوم به «زنجیره تفکر» (Chain-of-Thought) بهره میبرند که شامل تحلیل مرحلهبهمرحله مسائل است. این روش قرار بود دقت پاسخها را بالا ببرد، اما پژوهش جدید اپل نشان میدهد این زنجیره در عمل بسیار شکننده است و با کمی افزایش پیچیدگی دچار گسست میشود.
از سوی دیگر، فقدان ارزیابیهای دقیق و غیرریاضیمحور، یکی از دلایل نادیدهگرفتهشدن این ضعفها بوده است. به گفته نویسندگان، ارزیابیهای رایج اغلب متکی بر حل مسائل کدنویسی یا ریاضی هستند و ظرفیت سنجش توانایی واقعی استدلال این مدلها را ندارند.
واکنشها و پیامدها
این یافتهها بازتاب گستردهای در میان کارشناسان داشته است. «آندری بورکو»، کارشناس باسابقه هوش مصنوعی و مدیر پیشین تیم یادگیری ماشین در شرکت گارتنر، این پژوهش را «هشداری جدی» برای جریان غالب در حوزه هوش مصنوعی دانسته و گفته است:
اپل نشان داد که LLMها صرفاً شبکههای عصبی هستند با تمام محدودیتهای شناختهشدهشان؛ چیزی که برخی از ما سالها تلاش کردیم بگوییم، اما در هیاهوی تبلیغات گم شد.
بورکو تاکید کرده که این گزارش میتواند به بازگشت نگاهی علمیتر و واقعگرایانهتر به حوزه مدلهای زبانی کمک کند؛ نگاهی که عملکرد این مدلها را با استانداردهایی دقیقتر و کمتر اغراقآمیز میسنجد.
استراتژی متفاوت اپل
در حالی که غولهای فناوری مانند OpenAI، گوگل و آنتروپیک بهدنبال افزایش مقیاس مدلها و تبلیغ دستاوردهای شبهانسانی هستند، اپل راهی متفاوت را در پیش گرفته است. این شرکت با تمرکز بر توسعه مدلهای سبکتر، اما دقیقتر، قصد دارد هوش مصنوعی را مستقیماً درون دستگاههای کاربران ادغام کند – رویکردی که ممکن است در بلندمدت به ایمنی و کارآمدی بیشتر منجر شود.
مطالعه جدید اپل تلنگری جدی به خوشبینیهای افراطی در مورد آینده نزدیک هوش مصنوعی است. درحالیکه مدلهای زبانی توانستهاند در برخی حوزهها موفق عمل کنند، توانایی آنها در «فهم واقعی» یا «استدلال عمومی» همچنان بسیار محدود و شکننده باقی مانده است.