آخرین اخبار:
کد خبر:۱۲۷۴۱۸۷

توهم تفکر در چت‌بات‌ها؛ شکست LLMها در مسائل پیچیده

مطالعه‌ای تازه از اپل نشان می‌دهد که مدل‌های زبانی بزرگ، علیرغم طراحی برای استدلال منطقی، در مواجهه با چالش‌های دشوار دچار اختلال کامل می‌شوند.

توهم تفکر در چت‌بات‌ها؛ شکست LLMها در مسائل پیچیده

به گزارش گروه دانشگاه خبرگزاری دانشجو، برخلاف تبلیغات پرزرق‌وبرق شرکت‌های بزرگ فناوری، پژوهشی تازه از شرکت اپل نشان می‌دهد مدل‌های هوش مصنوعی استدلال‌محور در مواجهه با مسائل پیچیده از پای درمی‌آیند. به‌عبارت‌دیگر، «هوش مصنوعی» فعلاً به آن باهوشی‌ها هم نیست.

بر پایه این مطالعه که با همکاری پژوهشگران اپل و به‌نقل از لایوساینس منتشر شده، مدل‌هایی همچون Claude، o۳ و R۱ که به‌عنوان نسخه‌های پیشرفته‌تری از «مدل‌های زبانی بزرگ» (LLM) توسعه یافته‌اند، در آزمون‌های استدلالی با پیچیدگی بالا دچار فروپاشی کامل دقت می‌شوند؛ نتیجه‌ای که ضربه‌ای مستقیم به ادعا‌های اخیر پیرامون نزدیک‌شدن به «هوش عمومی مصنوعی» (AGI) تلقی می‌شود.

استدلال ماشینی زیر تیغ آزمایش

در این پژوهش، چهار معمای کلاسیک در سه سطح پیچیدگی (آسان، متوسط و سخت) به مدل‌های مختلف ارائه شد. نکته جالب اینکه در مسائل ساده، مدل‌های عمومی عملکرد بهتری نسبت به مدل‌های استدلالی از خود نشان دادند، چرا که بدون طی‌کردن فرآیند پرهزینه زنجیره تفکر، به پاسخ درست می‌رسیدند. اما هرچه پازل‌ها پیچیده‌تر شدند، عملکرد مدل‌های استدلالی نیز بهبود یافت – تا آنجا که با افزایش بیشتر پیچیدگی، ناگهان همه مدل‌ها در پاسخ‌گویی ناتوان شدند.

پژوهشگران می‌گویند پس از عبور از یک آستانه بحرانی، حتی زمانی که پاسخ درست به مدل‌ها داده می‌شد، آنها توانایی پردازش درست آن را نداشتند. این موضوع نشان می‌دهد آنچه به‌عنوان «استدلال» در این مدل‌ها شناخته می‌شود، بیشتر نوعی الگوسازی آماری است تا تفکر منطقی واقعی.

توهم در زنجیره تفکر

مدل‌های استدلالی از روشی موسوم به «زنجیره تفکر» (Chain-of-Thought) بهره می‌برند که شامل تحلیل مرحله‌به‌مرحله مسائل است. این روش قرار بود دقت پاسخ‌ها را بالا ببرد، اما پژوهش جدید اپل نشان می‌دهد این زنجیره در عمل بسیار شکننده است و با کمی افزایش پیچیدگی دچار گسست می‌شود.

از سوی دیگر، فقدان ارزیابی‌های دقیق و غیرریاضی‌محور، یکی از دلایل نادیده‌گرفته‌شدن این ضعف‌ها بوده است. به گفته نویسندگان، ارزیابی‌های رایج اغلب متکی بر حل مسائل کدنویسی یا ریاضی هستند و ظرفیت سنجش توانایی واقعی استدلال این مدل‌ها را ندارند.

واکنش‌ها و پیامد‌ها

این یافته‌ها بازتاب گسترده‌ای در میان کارشناسان داشته است. «آندری بورکو»، کارشناس باسابقه هوش مصنوعی و مدیر پیشین تیم یادگیری ماشین در شرکت گارتنر، این پژوهش را «هشداری جدی» برای جریان غالب در حوزه هوش مصنوعی دانسته و گفته است:

اپل نشان داد که LLM‌ها صرفاً شبکه‌های عصبی هستند با تمام محدودیت‌های شناخته‌شده‌شان؛ چیزی که برخی از ما سال‌ها تلاش کردیم بگوییم، اما در هیاهوی تبلیغات گم شد.

بورکو تاکید کرده که این گزارش می‌تواند به بازگشت نگاهی علمی‌تر و واقع‌گرایانه‌تر به حوزه مدل‌های زبانی کمک کند؛ نگاهی که عملکرد این مدل‌ها را با استاندارد‌هایی دقیق‌تر و کمتر اغراق‌آمیز می‌سنجد.

استراتژی متفاوت اپل

در حالی که غول‌های فناوری مانند OpenAI، گوگل و آنتروپیک به‌دنبال افزایش مقیاس مدل‌ها و تبلیغ دستاورد‌های شبه‌انسانی هستند، اپل راهی متفاوت را در پیش گرفته است. این شرکت با تمرکز بر توسعه مدل‌های سبک‌تر، اما دقیق‌تر، قصد دارد هوش مصنوعی را مستقیماً درون دستگاه‌های کاربران ادغام کند – رویکردی که ممکن است در بلندمدت به ایمنی و کارآمدی بیشتر منجر شود.

مطالعه جدید اپل تلنگری جدی به خوش‌بینی‌های افراطی در مورد آینده نزدیک هوش مصنوعی است. درحالی‌که مدل‌های زبانی توانسته‌اند در برخی حوزه‌ها موفق عمل کنند، توانایی آنها در «فهم واقعی» یا «استدلال عمومی» همچنان بسیار محدود و شکننده باقی مانده است.

ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار