چگونه یک مدل برتر هوش مصنوعی چینی بر تحریم‌های ایالات متحده غلبه کرد؟

با یک مدل استدلال جدید که با عملکرد ChatGPT o۱ مطابقت دارد، DeepSeek توانست محدودیت‌ها را به نوآوری تبدیل کند.

به گزارش گروه دانشگاه خبرگزاری دانشجو؛ جامعه هوش مصنوعی درباره DeepSeek R۱، یک مدل استدلال منبع باز جدید، غوغا کرده است. این مدل توسط استارت‌آپ چینی هوش مصنوعی DeepSeek توسعه داده شده است، که ادعا می‌کند R۱ در چندین معیار کلیدی با ChatGPT o۱ OpenAI مطابقت دارد یا حتی از آن پیشی می‌گیرد، اما با کسری از هزینه کار می‌کند.

هانچنگ کائو، استادیار سیستم‌های اطلاعاتی در دانشگاه اموری، می‌گوید: این می‌تواند یک پیشرفت واقعی برابری‌کننده باشد که برای محققان و توسعه‌دهندگان با منابع محدود، به‌ویژه کسانی که از جنوب جهانی هستند، عالی است.

موفقیت DeepSeek با توجه به محدودیت‌هایی که شرکت‌های چینی هوش مصنوعی در قالب افزایش کنترل صادرات ایالات متحده بر روی تراشه‌های پیشرفته با آن رو‌به‌رو هستند، قابل توجه‌تر است. اما شواهد اولیه نشان می‌دهد که این اقدامات آنطور که در نظر گرفته شده است کار نمی‌کنند. به‌نظر می‌رسد تحریم‌ها به جای تضعیف قابلیت‌های هوش مصنوعی چین، استارت‌آپ‌هایی مانند DeepSeek را به نوآوری‌هایی سوق می‌دهند که کارایی، تجمیع منابع و همکاری را در اولویت قرار می‌دهند.

به گفته زیهان وانگ، یکی از مدیران سابق DeepSeek، برای ایجاد R۱، DeepSeek مجبور شد فرآیند آموزشی خود را برای کاهش فشار بر پردازنده‌های گرافیکی خود بازنگری کند. کارمند و دانشجوی فعلی دکترای علوم کامپیوتر در دانشگاه نورث وسترن.

DeepSeek R۱ به دلیل توانایی آن در مقابله با وظایف استدلالی پیچیده، به ویژه در ریاضیات و کدنویسی، توسط محققان تحسین شده است. این مدل از رویکرد "زنجیره‌ای از افکار" مشابه آنچه توسط ChatGPT o۱ استفاده می‌شود، استفاده می‌کند که به آن اجازه می‌دهد مشکلات را با پردازش گام به گام پرس و جو‌ها حل کند.

دیمیتری پاپایلیوپولوس، محقق اصلی آزمایشگاه تحقیقاتی AI Frontiers مایکروسافت، می‌گوید آنچه که او را در مورد R۱ بیش از همه شگفت زده کرد، سادگی مهندسی آن است. او می‌گوید: هدف DeepSeek به‌جای بیان جزئیات هر مرحله منطقی، پاسخ‌های دقیق بود و زمان محاسبات را به میزان قابل توجهی کاهش داد و در عین حال سطح بالایی از اثربخشی را حفظ کرد.

این کشور نشان داده است که آماده است تا با سخت‌تر ضربه بزند، به گونه‌ای که می‌تواند درد اقتصادی جدی را بر بزرگترین رقیب اقتصادی‌اش تحمیل کند.

DeepSeek همچنین شش نسخه کوچکتر از R۱ را منتشر کرده است که به اندازه کافی کوچک هستند تا به صورت محلی روی لپ تاپ‌ها اجرا شوند. این ادعا می‌کند که یکی از آنها حتی در معیار‌های خاصی از OpenAI o۱-mini بهتر عمل می‌کند. آراویند سرینیواس، مدیرعامل Perplexity در توییتی نوشت: DeepSeek تا حد زیادی o۱-mini را تکرار کرده و آن را منبع باز کرده است. DeepSeek به درخواست MIT Technology Review برای نظر دادن پاسخی نداد.

علیرغم هیاهوی اطراف R۱، DeepSeek نسبتا ناشناخته باقی مانده است. مستقر در هانگژو، چین، در ژوئیه ۲۰۲۳ توسط لیانگ ونفنگ، فارغ التحصیل دانشگاه ژجیانگ با پیشینه اطلاعات و مهندسی الکترونیک تاسیس شد. این توسط High-Flyer، یک صندوق تامینی که لیانگ در سال ۲۰۱۵ تأسیس کرد، انکوبه شد. لیانگ مانند سم آلتمن از OpenAI، قصد دارد هوش مصنوعی عمومی (AGI) بسازد، نوعی از هوش مصنوعی که می‌تواند با انسان‌ها در طیف وسیعی از کار‌ها مطابقت داشته باشد یا حتی از آنها غلبه کند..

آموزش مدل‌های زبان بزرگ (LLM) به تیمی از محققان بسیار آموزش دیده و قدرت محاسباتی قابل توجهی نیاز دارد. در مصاحبه اخیر با رسانه چینی LatePost، کای فو لی، یک کارآفرین کهنه کار و رئیس سابق گوگل چین، گفت که تنها «بازیکنان ردیف اول» معمولاً در ساخت مدل‌های پایه مانند ChatGPT شرکت می‌کنند، زیرا این منبع بسیار زیاد است. فشرده

این وضعیت با کنترل صادرات ایالات متحده بر روی نیمه هادی‌های پیشرفته پیچیده‌تر شده است. تصمیم High-Flyer برای ورود به هوش مصنوعی مستقیماً با این محدودیت‌ها مرتبط است. مدت‌ها قبل از تحریم‌های پیش بینی شده، لیانگ انبار قابل توجهی از تراشه‌های Nvidia A۱۰۰ را به دست آورد، نوعی که اکنون صادرات آن به چین ممنوع شده است. رسانه چینی ۳۶Kr تخمین می‌زند که این شرکت بیش از ۱۰۰۰۰ واحد در انبار دارد، اما دیلان پاتل، بنیانگذار موسسه تحقیقاتی مشاوره هوش مصنوعی SemiAnalysis، تخمین می‌زند که حداقل ۵۰، ۰۰۰ دستگاه دارد. شناخت پتانسیل این ذخیره برای آموزش هوش مصنوعی همان چیزی است که لیانگ را به تاسیس DeepSeek سوق داد که توانست از آنها در ترکیب با تراشه‌های کم مصرف برای توسعه مدل‌های خود استفاده کند.

غول‌های فناوری مانند علی‌بابا و بایت‌دنس، و همچنین تعداد انگشت شماری از استارت‌آپ‌ها با سرمایه‌گذاران با جیب عمیق، بر فضای هوش مصنوعی چین تسلط دارند و رقابت برای شرکت‌های کوچک یا متوسط را به چالش می‌کشند. شرکتی مانند DeepSeek که هیچ برنامه‌ای برای جمع آوری سرمایه ندارد، نادر است.

زیهان وانگ، کارمند سابق DeepSeek، به MIT Technology Review گفت: به منابع محاسباتی فراوان دسترسی دارد و در هنگام کار در DeepSeek به او آزادی آزمایش داده شده است، "تجملی که تعداد کمی از فارغ التحصیلان تازه وارد در هر شرکتی به دست می‌آورند.

لیانگ در مصاحبه‌ای با رسانه چینی ۳۶Kr در ژوئیه ۲۰۲۴ گفت که چالش دیگری که شرکت‌های چینی در کنار تحریم تراشه‌ها با آن رو‌به‌رو هستند، این است که تکنیک‌های مهندسی هوش مصنوعی آنها کارآمدتر هستند. ما [بیشتر شرکت‌های چینی]باید دو برابر توان محاسباتی مصرف کنیم تا به نتایج یکسانی برسیم. همراه با شکاف‌های کارایی داده، این می‌تواند به معنای نیاز به قدرت محاسباتی تا چهار برابر بیشتر باشد. هدف ما رفع مستمر این شکاف‌ها است.

اما DeepSeek راه‌هایی برای کاهش مصرف حافظه و سرعت بخشیدن به محاسبه بدون کاهش قابل توجهی در دقت پیدا کرد. وانگ می‌گوید: تیم عاشق تبدیل چالش سخت افزاری به فرصتی برای نوآوری است.

لیانگ خود عمیقاً درگیر فرآیند تحقیقاتی DeepSeek است و آزمایش‌هایی را در کنار تیمش انجام می‌دهد. وانگ می‌گوید: کل تیم یک فرهنگ مشترک و تعهد به تحقیقات سخت‌کوه دارند.

برای همه باز است

علاوه بر اولویت دادن به کارایی، شرکت‌های چینی به طور فزاینده‌ای از اصول منبع باز استقبال می‌کنند. Alibaba Cloud بیش از ۱۰۰ مدل AI منبع باز جدید را منتشر کرده است که از ۲۹ زبان پشتیبانی می‌کند و برنامه‌های مختلف از جمله برنامه نویسی و ریاضیات را ارائه می‌دهد. به طور مشابه، استارت آپ‌هایی مانند Minimax و ۰۱.AI مدل‌های خود را منبع باز کرده‌اند.

بر اساس مقاله سفیدی که سال گذشته توسط آکادمی فناوری اطلاعات و ارتباطات چین، یک موسسه تحقیقاتی وابسته به دولت منتشر شد، تعداد مدل‌های زبان بزرگ هوش مصنوعی در سراسر جهان به ۱۳۲۸ مورد رسیده است که ۳۶ درصد از آنها در چین منشا می‌گیرند. این امر چین را به عنوان دومین شرکت کننده بزرگ هوش مصنوعی پس از ایالات متحده قرار می‌دهد.

توماس کیتونگ کائو، استادیار سیاست فناوری در دانشگاه تافتس می‌گوید: «این نسل از محققان جوان چینی به شدت با فرهنگ منبع باز شناسایی می‌شوند، زیرا از آن سود زیادی می‌برند.

مت شیهان، محقق هوش مصنوعی در بنیاد کارنگی برای صلح بین‌المللی، می‌گوید: کنترل صادرات ایالات متحده اساساً شرکت‌های چینی را به گوشه‌ای هدایت کرده است که باید با منابع محاسباتی محدود خود بسیار کارآمدتر عمل کنند. ما احتمالاً در آینده شاهد ادغام زیادی در رابطه با کمبود محاسبات خواهیم بود.

این ممکن است از قبل شروع شده باشد. دو هفته پیش، Alibaba Cloud اعلام کرد که با استارتاپ ۰۱.AI مستقر در پکن، که توسط Kai-Fu Lee تأسیس شده است، برای ادغام تیم‌های تحقیقاتی و ایجاد یک "آزمایشگاه مدل بزرگ صنعتی" شریک شده است.

کائو، پروفسور تافتز می‌گوید: ظهور نوعی تقسیم کار در صنعت هوش مصنوعی از نظر انرژی کارآمد و طبیعی است. تکامل سریع هوش مصنوعی نیازمند چابکی شرکت‌های چینی برای بقا است.

منبع: MIT Technology

لینک کپی شد

گزارش خطا

پسندها: ۰

اشتراک گذاری

برچسب ها:

دیپ سیک هوش مصنوعی نوآوری