به گزارش گروه دانشگاه خبرگزاری دانشجو؛ جامعه هوش مصنوعی درباره DeepSeek R۱، یک مدل استدلال منبع باز جدید، غوغا کرده است. این مدل توسط استارتآپ چینی هوش مصنوعی DeepSeek توسعه داده شده است، که ادعا میکند R۱ در چندین معیار کلیدی با ChatGPT o۱ OpenAI مطابقت دارد یا حتی از آن پیشی میگیرد، اما با کسری از هزینه کار میکند.
هانچنگ کائو، استادیار سیستمهای اطلاعاتی در دانشگاه اموری، میگوید: این میتواند یک پیشرفت واقعی برابریکننده باشد که برای محققان و توسعهدهندگان با منابع محدود، بهویژه کسانی که از جنوب جهانی هستند، عالی است.
موفقیت DeepSeek با توجه به محدودیتهایی که شرکتهای چینی هوش مصنوعی در قالب افزایش کنترل صادرات ایالات متحده بر روی تراشههای پیشرفته با آن روبهرو هستند، قابل توجهتر است. اما شواهد اولیه نشان میدهد که این اقدامات آنطور که در نظر گرفته شده است کار نمیکنند. بهنظر میرسد تحریمها به جای تضعیف قابلیتهای هوش مصنوعی چین، استارتآپهایی مانند DeepSeek را به نوآوریهایی سوق میدهند که کارایی، تجمیع منابع و همکاری را در اولویت قرار میدهند.
به گفته زیهان وانگ، یکی از مدیران سابق DeepSeek، برای ایجاد R۱، DeepSeek مجبور شد فرآیند آموزشی خود را برای کاهش فشار بر پردازندههای گرافیکی خود بازنگری کند. کارمند و دانشجوی فعلی دکترای علوم کامپیوتر در دانشگاه نورث وسترن.
DeepSeek R۱ به دلیل توانایی آن در مقابله با وظایف استدلالی پیچیده، به ویژه در ریاضیات و کدنویسی، توسط محققان تحسین شده است. این مدل از رویکرد "زنجیرهای از افکار" مشابه آنچه توسط ChatGPT o۱ استفاده میشود، استفاده میکند که به آن اجازه میدهد مشکلات را با پردازش گام به گام پرس و جوها حل کند.
دیمیتری پاپایلیوپولوس، محقق اصلی آزمایشگاه تحقیقاتی AI Frontiers مایکروسافت، میگوید آنچه که او را در مورد R۱ بیش از همه شگفت زده کرد، سادگی مهندسی آن است. او میگوید: هدف DeepSeek بهجای بیان جزئیات هر مرحله منطقی، پاسخهای دقیق بود و زمان محاسبات را به میزان قابل توجهی کاهش داد و در عین حال سطح بالایی از اثربخشی را حفظ کرد.
این کشور نشان داده است که آماده است تا با سختتر ضربه بزند، به گونهای که میتواند درد اقتصادی جدی را بر بزرگترین رقیب اقتصادیاش تحمیل کند.
DeepSeek همچنین شش نسخه کوچکتر از R۱ را منتشر کرده است که به اندازه کافی کوچک هستند تا به صورت محلی روی لپ تاپها اجرا شوند. این ادعا میکند که یکی از آنها حتی در معیارهای خاصی از OpenAI o۱-mini بهتر عمل میکند. آراویند سرینیواس، مدیرعامل Perplexity در توییتی نوشت: DeepSeek تا حد زیادی o۱-mini را تکرار کرده و آن را منبع باز کرده است. DeepSeek به درخواست MIT Technology Review برای نظر دادن پاسخی نداد.
علیرغم هیاهوی اطراف R۱، DeepSeek نسبتا ناشناخته باقی مانده است. مستقر در هانگژو، چین، در ژوئیه ۲۰۲۳ توسط لیانگ ونفنگ، فارغ التحصیل دانشگاه ژجیانگ با پیشینه اطلاعات و مهندسی الکترونیک تاسیس شد. این توسط High-Flyer، یک صندوق تامینی که لیانگ در سال ۲۰۱۵ تأسیس کرد، انکوبه شد. لیانگ مانند سم آلتمن از OpenAI، قصد دارد هوش مصنوعی عمومی (AGI) بسازد، نوعی از هوش مصنوعی که میتواند با انسانها در طیف وسیعی از کارها مطابقت داشته باشد یا حتی از آنها غلبه کند..
آموزش مدلهای زبان بزرگ (LLM) به تیمی از محققان بسیار آموزش دیده و قدرت محاسباتی قابل توجهی نیاز دارد. در مصاحبه اخیر با رسانه چینی LatePost، کای فو لی، یک کارآفرین کهنه کار و رئیس سابق گوگل چین، گفت که تنها «بازیکنان ردیف اول» معمولاً در ساخت مدلهای پایه مانند ChatGPT شرکت میکنند، زیرا این منبع بسیار زیاد است. فشرده
این وضعیت با کنترل صادرات ایالات متحده بر روی نیمه هادیهای پیشرفته پیچیدهتر شده است. تصمیم High-Flyer برای ورود به هوش مصنوعی مستقیماً با این محدودیتها مرتبط است. مدتها قبل از تحریمهای پیش بینی شده، لیانگ انبار قابل توجهی از تراشههای Nvidia A۱۰۰ را به دست آورد، نوعی که اکنون صادرات آن به چین ممنوع شده است. رسانه چینی ۳۶Kr تخمین میزند که این شرکت بیش از ۱۰۰۰۰ واحد در انبار دارد، اما دیلان پاتل، بنیانگذار موسسه تحقیقاتی مشاوره هوش مصنوعی SemiAnalysis، تخمین میزند که حداقل ۵۰، ۰۰۰ دستگاه دارد. شناخت پتانسیل این ذخیره برای آموزش هوش مصنوعی همان چیزی است که لیانگ را به تاسیس DeepSeek سوق داد که توانست از آنها در ترکیب با تراشههای کم مصرف برای توسعه مدلهای خود استفاده کند.
غولهای فناوری مانند علیبابا و بایتدنس، و همچنین تعداد انگشت شماری از استارتآپها با سرمایهگذاران با جیب عمیق، بر فضای هوش مصنوعی چین تسلط دارند و رقابت برای شرکتهای کوچک یا متوسط را به چالش میکشند. شرکتی مانند DeepSeek که هیچ برنامهای برای جمع آوری سرمایه ندارد، نادر است.
زیهان وانگ، کارمند سابق DeepSeek، به MIT Technology Review گفت: به منابع محاسباتی فراوان دسترسی دارد و در هنگام کار در DeepSeek به او آزادی آزمایش داده شده است، "تجملی که تعداد کمی از فارغ التحصیلان تازه وارد در هر شرکتی به دست میآورند.
لیانگ در مصاحبهای با رسانه چینی ۳۶Kr در ژوئیه ۲۰۲۴ گفت که چالش دیگری که شرکتهای چینی در کنار تحریم تراشهها با آن روبهرو هستند، این است که تکنیکهای مهندسی هوش مصنوعی آنها کارآمدتر هستند. ما [بیشتر شرکتهای چینی]باید دو برابر توان محاسباتی مصرف کنیم تا به نتایج یکسانی برسیم. همراه با شکافهای کارایی داده، این میتواند به معنای نیاز به قدرت محاسباتی تا چهار برابر بیشتر باشد. هدف ما رفع مستمر این شکافها است.
اما DeepSeek راههایی برای کاهش مصرف حافظه و سرعت بخشیدن به محاسبه بدون کاهش قابل توجهی در دقت پیدا کرد. وانگ میگوید: تیم عاشق تبدیل چالش سخت افزاری به فرصتی برای نوآوری است.
لیانگ خود عمیقاً درگیر فرآیند تحقیقاتی DeepSeek است و آزمایشهایی را در کنار تیمش انجام میدهد. وانگ میگوید: کل تیم یک فرهنگ مشترک و تعهد به تحقیقات سختکوه دارند.
برای همه باز است
علاوه بر اولویت دادن به کارایی، شرکتهای چینی به طور فزایندهای از اصول منبع باز استقبال میکنند. Alibaba Cloud بیش از ۱۰۰ مدل AI منبع باز جدید را منتشر کرده است که از ۲۹ زبان پشتیبانی میکند و برنامههای مختلف از جمله برنامه نویسی و ریاضیات را ارائه میدهد. به طور مشابه، استارت آپهایی مانند Minimax و ۰۱.AI مدلهای خود را منبع باز کردهاند.
بر اساس مقاله سفیدی که سال گذشته توسط آکادمی فناوری اطلاعات و ارتباطات چین، یک موسسه تحقیقاتی وابسته به دولت منتشر شد، تعداد مدلهای زبان بزرگ هوش مصنوعی در سراسر جهان به ۱۳۲۸ مورد رسیده است که ۳۶ درصد از آنها در چین منشا میگیرند. این امر چین را به عنوان دومین شرکت کننده بزرگ هوش مصنوعی پس از ایالات متحده قرار میدهد.
توماس کیتونگ کائو، استادیار سیاست فناوری در دانشگاه تافتس میگوید: «این نسل از محققان جوان چینی به شدت با فرهنگ منبع باز شناسایی میشوند، زیرا از آن سود زیادی میبرند.
مت شیهان، محقق هوش مصنوعی در بنیاد کارنگی برای صلح بینالمللی، میگوید: کنترل صادرات ایالات متحده اساساً شرکتهای چینی را به گوشهای هدایت کرده است که باید با منابع محاسباتی محدود خود بسیار کارآمدتر عمل کنند. ما احتمالاً در آینده شاهد ادغام زیادی در رابطه با کمبود محاسبات خواهیم بود.
این ممکن است از قبل شروع شده باشد. دو هفته پیش، Alibaba Cloud اعلام کرد که با استارتاپ ۰۱.AI مستقر در پکن، که توسط Kai-Fu Lee تأسیس شده است، برای ادغام تیمهای تحقیقاتی و ایجاد یک "آزمایشگاه مدل بزرگ صنعتی" شریک شده است.
کائو، پروفسور تافتز میگوید: ظهور نوعی تقسیم کار در صنعت هوش مصنوعی از نظر انرژی کارآمد و طبیعی است. تکامل سریع هوش مصنوعی نیازمند چابکی شرکتهای چینی برای بقا است.
منبع: MIT Technology