انقلاب در پردازش زبان! GPT-OSS با رکورد تاریخی ۱.۵M توکن/ثانیه

به گزارش گروه دانشگاه خبرگزاری دانشجو، OpenAI و NVIDIA از دو مدل زبان بزرگ (LLM) متنباز پیشرفته به نامهای gpt-oss-۱۲۰b و gpt-oss-۲۰b رونمایی کردند که برای ارائه قابلیتهای استدلال پیشرفته به توسعهدهندگان، محققان، استارتآپها و شرکتهای سراسر جهان طراحی شدهاند.
این مدلها گامی بزرگ به جلو در توسعه هوش مصنوعی باز هستند و عملکرد پیشرفته، انعطافپذیری گسترده و کارایی را در طیف وسیعی از محیطهای استقرار ارائه میدهند.
این مدلها که روی پردازندههای گرافیکی H۱۰۰ انویدیا آموزش دیده و برای استقرار در اکوسیستم عظیم CUDA آن بهینه شدهاند، بهترین عملکرد را روی سیستمهای GB۲۰۰ NVL۷۲ مجهز به Blackwell دارند و به سرعت استنتاج ۱.۵ میلیون توکن در ثانیه دست مییابند.
بلکول در هسته
هر دو مدل تحت مجوز آپاچی ۲.۰ منتشر شدهاند که امکان استفاده کامل تجاری و تحقیقاتی را فراهم میکند.
جنسن هوانگ، بنیانگذار و مدیرعامل انویدیا، گفت: «OpenAI به جهانیان نشان داد که چه چیزهایی را میتوان بر اساس هوش مصنوعی انویدیا ساخت - و اکنون آنها در حال پیشبرد نوآوری در نرمافزارهای متنباز هستند.»
مدلهای gpt-oss به توسعهدهندگان در همه جا اجازه میدهد تا بر روی آن بنیاد متنباز پیشرفته، برنامههای خود را بسازند و رهبری فناوری ایالات متحده در هوش مصنوعی را تقویت کنند - همه اینها در بزرگترین زیرساخت محاسباتی هوش مصنوعی جهان انجام میشود.
مدل gpt-oss-۱۲۰b در معیارهای استدلال اصلی تقریباً به برابری با o۴-mini شرکت OpenAI دست مییابد و میتواند روی یک پردازنده گرافیکی ۸۰ گیگابایتی اجرا شود، در حالی که مدل کوچکتر gpt-oss-۲۰b عملکرد o۳-mini را دارد و برای اجرا روی دستگاههای لبهای با تنها ۱۶ گیگابایت حافظه بهینه شده است.
هر دو مدل در استدلال زنجیره فکری (CoT)، استفاده از ابزار و خروجیهای ساختاریافته عملکرد قوی دارند و برای وظایف کمتاخیر و بلادرنگ ایدهآل هستند.
انعطافپذیری چارچوب برای توسعهدهندگان
این مدلها کاملاً با چارچوبهای پیشرو مانند FlashInfer، Hugging Face، llama.cpp، Ollama و vLLM در کنار پشته TensorRT-LLM انویدیا سازگار هستند.
این انعطافپذیری به توسعهدهندگان این امکان را میدهد که از ابزارهای مورد علاقه خود استفاده کنند و در عین حال از بهینهسازی سرتاسری NVIDIA بهرهمند شوند.
از نظر معماری، هر دو مدل از رویکرد ترکیبی از متخصصان (MoE) استفاده میکنند. gpt-oss-۱۲۰b شامل ۱۱۷ میلیارد پارامتر است که تنها ۵.۱ میلیارد از آنها به ازای هر توکن فعال هستند، در حالی که gpt-oss-۲۰b از مجموع ۲۱ میلیارد پارامتر فعال، ۳.۶ میلیارد پارامتر را استفاده میکند.
هر دو از طول متن ۱۲۸ هزارتایی پشتیبانی میکنند، از جاسازیهای موقعیتی چرخشی استفاده میکنند و از تکنیکهای توجه پیشرفتهای برخوردارند که قدرت و کارایی حافظه را متعادل میکنند.
در آزمایشهای بنچمارک، gpt-oss-۱۲۰b در وظایف مربوط به مراقبتهای بهداشتی (HealthBench)، ریاضیات (AIME ۲۰۲۴ و ۲۰۲۵) و کدنویسی (Codeforces) از چندین مدل اختصاصی، از جمله o۱ و o۴-mini شرکت OpenAI، عملکرد بهتری داشت.
مدل کوچکتر gpt-oss-۲۰b حتی با نیازهای زیرساختی بسیار سبکتر، عملکرد قابل مقایسهای داشت.
این مدلها با استفاده از ترکیبی از تنظیم دقیق تحت نظارت، یادگیری تقویتی و تکنیکهای سیستمهای اختصاصی رده بالای OpenAI آموزش داده شدند.
آنها از تنظیمات تلاش استدلال متغیر (کم، متوسط، زیاد) پشتیبانی میکنند و به توسعهدهندگان اجازه میدهند عملکرد را با تأخیر متعادل کنند.
برای اطمینان از ایمنی، مدلها با استفاده از چارچوب آمادگی OpenAI و آزمایشهای تنظیم دقیق رقابتی ارزیابی شدند. کارشناسان مستقل این روش را بررسی کردند و به ایجاد استانداردهای ایمنی قابل مقایسه با مدلهای مرز بسته شرکت کمک کردند.
OpenAI و NVIDIA همچنین با پلتفرمهای اصلی استقرار مانند Azure، AWS، Vercel و Databricks و رهبران سختافزار از جمله AMD، Cerebras و Groq همکاری کردهاند. مایکروسافت از طریق ONNX Runtime امکان استنتاج محلی gpt-oss-۲۰b را در دستگاههای ویندوز فراهم میکند.
با انتشار عمومی این مدلها، OpenAI قصد دارد هوش مصنوعی پیشرفته را در دسترستر کند و در عین حال نوآوری و توسعه مسئولانه را تشویق کند.
همزمان با آشکار شدن موج بعدی تحولات صنعتی، gpt-oss هوش مصنوعی نسل بعدی را مستقیماً در اختیار سازندگانی قرار میدهد که آینده آن را شکل میدهند.