به گزارش گروه دانشگاه خبرگزاری دانشجو، OpenAI از مدل هوش مصنوعی استدلال o۳ برای مقابله با چالشهای پیچیده و رقابت با گوگل رونمایی میکند
مدل o۳ در مسابقه ریاضی AIME ۲۰۲۴ دقت ۹۶.۷ ٪ را به دست آورد و تنها یک سوال را از دست داد.
OpenAI سازنده ChatGPT مدل هوش مصنوعی استدلال کوتاه o۳ و o۳ mini را برای مقابله با چالشهای پیچیده راه اندازی کرده است.
به گفته مدیر عامل سام آلتمن، OpenAI قصد دارد o۳ mini را تا پایان ژانویه منتشر کند و به دنبال آن مدل کامل o۳ را با هدف قرار دادن عملکرد بهبود یافته برای جذب سرمایهگذاریها و کاربران جدید عرضه کند.
در یک پخش زنده در روز جمعه، آلتمن توضیح داد که این نشاندهنده آغاز مرحله بعدی هوش مصنوعی است، جایی که «این مدلها میتوانند وظایف پیچیدهتری را انجام دهند که نیاز به استدلال قابل توجهی دارند».
در اوایل سال جاری، OpenAI مدلهای هوش مصنوعی o۱ خود را معرفی کرد که برای اختصاص زمان پردازش بیشتر به حل سوالات پیچیده طراحی شدهاند. با این حال، ثابت شده است که مدل جدید ۲۰ درصد موثرتر از o۱ است. Ofir Press، محقق فوق دکترا در دانشگاه پرینستون که به توسعه SWE-Bench کمک کرد، به بهبود قابل توجه اشاره کرد و از افزایش قابل توجه و عدم اطمینان در مورد چگونگی دستیابی به آن ابراز شگفتی کرد.
علاوه بر این، این مدلها در مقابله با مسائل چالش برانگیز در زمینههایی مانند علوم، کدنویسی و ریاضیات عالی هستند. این شرکت اکنون میگوید که مدلهای مینی o۳ و o۳ که در حال حاضر تحت آزمایشهای ایمنی داخلی قرار دارند، از قابلیتهای مدلهای o۱ پیشی خواهند گرفت.
مدل o۳ در مسابقه ریاضی AIME ۲۰۲۴ دقت ۹۶.۷% را به دست آورد، تنها یک سوال را از دست داد و ۸۷.۷% در GPQA Diamond برای استدلال علمی به دست آورد که از کارشناسان معمولی در سطح PhD با ۷۰% عملکرد بهتری داشت.
یک دستاورد برجسته برای o۳ حل ۲۵.۲ ٪ از مسائل در معیار ریاضی مرزی EpochAI بود که یک جهش بزرگ از دقت ۲ ٪ مدل قبلی بود. همچنین امتیاز ۸۷.۵% را در معیار ARC-AGI کسب کرد که از عملکرد انسان در استدلال مفهومی پیشی گرفت.
در پستی در X آمده است که «OpenAI o۳ رتبه ۲۷۲۷ را در Codeforces دارد، که برابر با #۱۷۵ بهترین کدنویس رقابتی انسانی در جهان است» که یک دستاورد کاملاً فوق بشری برای هوش مصنوعی و فناوری است.
علاوه بر این، o۳-mini یک نسخه ساده از o۳ است که برای کارایی در وظایف کدنویسی طراحی شده است. عملکرد قوی با هزینههای محاسباتی کمتر و تنظیمات استدلال قابل تنظیم - کم، متوسط و زیاد - برای انعطاف پذیری در کارهای مختلف ارائه میدهد.
این شرکت همچنین یک روش ایمنی جدید به نام همسویی مشورتی را معرفی کرد که از مهارتهای استدلال مدلها برای شناسایی و مدیریت بهتر درخواستهای ناامن استفاده میکند. این یک پیشرفت بزرگ در ایمنی هوش مصنوعی است و دقت در رد درخواستهای مضر را بهبود میبخشد و در عین حال از رد بیش از حد درخواستهای معتبر جلوگیری میکند.
رویترز گزارش داد که OpenAI از محققان خارجی دعوت کرده است تا برای دسترسی زودهنگام به مدلهای o۳ خود درخواست دهند و روند درخواست در ۱۰ ژانویه بسته میشود. این شرکت با راه اندازی ChatGPT در نوامبر ۲۰۲۲، یک مسابقه تسلیحاتی AI را آغاز کرد و موفقیت روزافزون آن، همراه با عرضه محصولات جدید، به آن کمک کرد تا در اکتبر گذشته ۶.۶ میلیارد دلار بودجه دریافت کند.
در همین حال، گوگل در حال پیگیری یک خط تحقیقاتی مشابه است. نوام شزیر، محقق گوگل، در X فاش کرد که این شرکت مدل استدلالی خود، Gemini ۲.۰ Flash Thinking را توسعه داده است.
همانطور که WIRED مینویسد، رقابت بین OpenAI و گوگل همچنان در حال افزایش است، زیرا هر دو شرکت برای پیشرفت قابلیتهای هوش مصنوعی خود تلاش میکنند. OpenAI در تلاش است تا سرمایهگذاری بیشتری را جذب کند و تجارت خود را توسعه دهد، در حالی که گوگل قصد دارد برتری خود را در تحقیقات هوش مصنوعی حفظ کند و هر دو شرکت به جای افزایش مدلهای خود، بر بهبود هوش تمرکز دارند.