آزمایش یکماهه کلود و روایتی طنزآمیز از اداره فروشگاه توسط چتبات
به گزارش گروه دانشگاه خبرگزاری دانشجو، کسب و کار کوچک، به مدت حدود یک ماه به کلود اجازه دادیم تا یک فروشگاه خودکار را در دفترمان مدیریت کند. ما از اینکه چقدر به موفقیت نزدیک بود - و از راههای عجیب شکست آن - چیزهای زیادی در مورد آیندهای محتمل، عجیب و نه چندان دور یاد گرفتیم که در آن مدلهای هوش مصنوعی به طور خودکار امور را در اقتصاد واقعی اداره میکنند.
شرکت آنتروپیک با شرکت ارزیابی ایمنی هوش مصنوعی Andon Labs همکاری کرد تا Claude Sonnet ۳.۷ یک فروشگاه کوچک و خودکار را در دفتر آنتروپیک در سانفرانسیسکو اداره کند.
به عبارت دیگر، کلود به جای اینکه فقط یک دستگاه فروش خودکار باشد، باید بسیاری از وظایف بسیار پیچیدهتر مرتبط با اداره یک فروشگاه سودآور را انجام میداد: نگهداری موجودی، تعیین قیمت، جلوگیری از ورشکستگی و غیره. در زیر میتوانید ظاهر «فروشگاه» را ببینید: یک یخچال کوچک، چند سبد روی هم چیده شده در بالا و یک آیپد برای پرداخت خودکار.
عامل هوش مصنوعی فروشگاه - که بدون هیچ دلیل خاصی و صرفاً برای تمایز از کاربردهای عادیتر کلود، با نام مستعار «کلادیوس» شناخته میشد - نمونهای از کلود سونت ۳.۷ بود که برای مدت طولانی اجرا میشد. این عامل ابزارها و تواناییهای زیر را داشت:
یک ابزار جستجوی وب واقعی برای تحقیق در مورد محصولات برای فروش
یک ابزار ایمیل برای درخواست کمک در کار فیزیکی (کارمندان Andon Labs به صورت دورهای برای پر کردن مجدد انبار به دفتر Anthropic میآمدند) و تماس با عمدهفروشان (برای اهداف آزمایش، Andon Labs به عنوان عمدهفروش عمل میکرد، اگرچه این موضوع برای هوش مصنوعی آشکار نشده بود). توجه داشته باشید که این ابزار نمیتوانست ایمیلهای واقعی ارسال کند و برای اهداف آزمایش ایجاد شده بود.
ابزارهایی برای یادداشتبرداری و حفظ اطلاعات مهم برای بررسیهای بعدی - برای مثال، ماندههای فعلی و جریان نقدی پیشبینیشدهی فروشگاه (این امر ضروری بود، زیرا تاریخچهی کامل ادارهی فروشگاه، «پنجرهی زمینه» را که تعیین میکند یک LLM در هر زمان معین چه اطلاعاتی را میتواند پردازش کند، تحت الشعاع قرار میداد).
امکان تعامل با مشتریان (در این مورد، کارمندان آنتروپیک). این تعامل از طریق پلتفرم ارتباط تیمی Slack انجام میشد. این پلتفرم به افراد اجازه میداد تا در مورد موارد مورد علاقه خود سوال کنند و کلودیوس را از تأخیرها یا سایر مسائل مطلع سازند.
امکان تغییر قیمتها در سیستم پرداخت خودکار فروشگاه
کلودیوس تصمیم گرفت چه چیزهایی را انبار کند، چگونه موجودی خود را قیمتگذاری کند، چه زمانی اقلام را دوباره انبار کند (یا فروش را متوقف کند) و چگونه به مشتریان پاسخ دهد (برای نمایش تنظیمات به شکل ۲ مراجعه کنید). به طور خاص، به کلودیوس گفته شد که لازم نیست فقط روی تنقلات و نوشیدنیهای سنتی داخل دفتر تمرکز کند و میتواند آزادانه به اقلام غیرمعمولتر نیز گسترش یابد.
چرا یک لیسانس حقوق (LLM) یک کسب و کار کوچک را اداره کردید؟
با ادغام بیشتر هوش مصنوعی در اقتصاد، برای درک بهتر قابلیتها و محدودیتهای آن به دادههای بیشتری نیاز داریم. ابتکاراتی مانند شاخص اقتصادی آنتروپیک، بینشی در مورد چگونگی ارتباط تعاملات فردی بین کاربران و دستیاران هوش مصنوعی با وظایف مرتبط با اقتصاد ارائه میدهند. اما سودمندی اقتصادی مدلها به دلیل توانایی آنها در انجام کار مداوم برای روزها یا هفتهها بدون نیاز به مداخله انسانی محدود میشود. نیاز به ارزیابی این قابلیت، Andon Labs را بر آن داشت تا Vending-Bench را توسعه داده و منتشر کند، آزمایشی از قابلیتهای هوش مصنوعی که در آن LLMها یک کسب و کار شبیهسازی شده دستگاه فروش خودکار را اداره میکنند. گام منطقی بعدی این بود که ببینیم چگونه تحقیقات شبیهسازی شده به دنیای فیزیکی ترجمه میشوند.
یک کسب و کار کوچک فروشندگی در دفتر، آزمون اولیه خوبی برای توانایی هوش مصنوعی در مدیریت و کسب منابع اقتصادی است. خود کسب و کار نسبتاً سرراست است؛ عدم موفقیت در اجرای آن نشان میدهد که «مدیریت ارتعاش» هنوز به «کدگذاری ارتعاش» جدید تبدیل نخواهد شد. از سوی دیگر، موفقیت، راههایی را نشان میدهد که در آنها کسب و کارهای موجود ممکن است سریعتر رشد کنند یا مدلهای کسب و کار جدیدی پدیدار شوند (در عین حال، سوالاتی را در مورد جایگزینی شغلها مطرح میکند).
خب: کلود چطور بود؟
بررسی عملکرد کلود
اگر شرکت آنتروپیک امروز تصمیم میگرفت که به بازار فروش حضوری (فروش حضوری) وارد شود، ما کلودیوس را استخدام نمیکردیم. همانطور که توضیح خواهیم داد، این شرکت اشتباهات زیادی مرتکب شد که نتوانست فروشگاه را با موفقیت اداره کند. با این حال، حداقل برای بیشتر مواردی که شکست خورد، فکر میکنیم مسیرهای روشنی برای بهبود وجود دارد - برخی مربوط به نحوه تنظیم مدل برای این کار و برخی دیگر از بهبود سریع هوش مدل عمومی.
چند کار بود که کلودیوس به خوبی (یا حداقل نه به طور ضعیف) انجام داد:
شناسایی تأمینکنندگان: کلودیوس از ابزار جستجوی وب خود به طور مؤثر برای شناسایی تأمینکنندگان اقلام تخصصی متعدد مورد درخواست کارمندان آنتروپیک استفاده کرد، مانند یافتن سریع دو تأمینکننده محصولات اساساً هلندی در پاسخ به این سوال که آیا میتواند برند شیر شکلات هلندی Chocomel را تأمین کند یا خیر.
سازگاری با کاربران: اگرچه کلودیوس از فرصتهای سودآور زیادی استفاده نکرد (به پایین مراجعه کنید)، اما چندین تغییر اساسی در کسبوکار خود ایجاد کرد که به مشتریان پاسخگو بود. یکی از کارمندان با خوشرویی درخواست یک مکعب تنگستن کرد و روند سفارشها برای «اقلام فلزی خاص» (همانطور که کلودیوس بعداً آنها را توصیف کرد) را آغاز کرد. کارمند دیگری پیشنهاد داد که کلودیوس به جای پاسخ دادن صرف به درخواستها برای موجودی، به پیشسفارش اقلام تخصصی تکیه کند، که منجر به ارسال پیامی به کارمندان آنتروپیک در کانال اسلک خود شد که در آن از سرویس «سفارشی دربان» که دقیقاً همین کار را انجام میدهد، خبر داد.
مقاومت در برابر فرار از زندان: همانطور که روند سفارش مکعبهای تنگستن نشان میدهد، کارمندان آنتروپیک مشتریان کاملاً معمولی نیستند. وقتی فرصتی برای گپ زدن با کلودیوس به آنها داده شد، بلافاصله سعی کردند او را به بدرفتاری وادار کنند. سفارش اقلام حساس و تلاش برای استخراج دستورالعملهای تولید مواد مضر رد شد.
با این حال، از جهات دیگر، کلودیوس عملکرد ضعیفتری نسبت به آنچه از یک مدیر انسانی انتظار میرود، داشت:
نادیده گرفتن فرصتهای پرسود: به کلودیوس ۱۰۰ دلار برای یک بسته ششتایی ایرن-برو، یک نوشیدنی غیرالکلی اسکاتلندی که میتوان آن را به صورت آنلاین در ایالات متحده با قیمت ۱۵ دلار خریداری کرد، پیشنهاد شد. کلودیوس به جای استفاده از این فرصت برای کسب سود، صرفاً گفت که «درخواست [کاربر]را برای تصمیمات آتی در مورد موجودی کالا در نظر خواهد گرفت».
جزئیات مهم وهمآلود: کلودیوس از طریق ونمو پرداختها را دریافت میکرد، اما برای مدتی به مشتریان دستور میداد که وجه را به حسابی که خودش وهمآلود میدانست، واریز کنند.
فروش با ضرر: کلودیوس در اشتیاق خود برای پاسخ به اشتیاق مشتریان به مکعب فلزی، بدون انجام هیچ تحقیقی قیمتهایی را ارائه میداد که منجر به قیمتگذاری اقلام بالقوه با حاشیه سود بالا، پایینتر از قیمت تمامشده میشد.
مدیریت موجودی غیربهینه: کلودیوس با موفقیت موجودی را رصد کرد و وقتی موجودی رو به اتمام بود، محصولات بیشتری سفارش داد، اما تنها یک بار به دلیل تقاضای بالا قیمت را افزایش داد (سومو سیتروس، از ۲.۵۰ دلار به ۲.۹۵ دلار). حتی وقتی مشتری به حماقت فروش کوکاکولا زیرو ۳ دلاری در کنار یخچال کارمندان که حاوی همان محصول به صورت رایگان بود، اشاره کرد، کلودیوس رویه خود را تغییر نداد.
ترغیب به تخفیفها: کلودیوس از طریق پیامهای اسلک ترغیب شد تا کدهای تخفیف متعددی ارائه دهد و به بسیاری از افراد دیگر اجازه دهد قیمتهای پیشنهادی خود را بر اساس آن تخفیفها کاهش دهند. حتی برخی اقلام، از یک بسته چیپس گرفته تا یک مکعب تنگستن، را به صورت رایگان ارائه داد.
کلودیوس به طور قابل اعتمادی از این اشتباهات درس نگرفت. برای مثال، وقتی یکی از کارمندان، در حالی که «۹۹٪ از مشتریان شما کارمندان آنتروپیک هستند» از ارائه تخفیف ۲۵٪ به کارمندان آنتروپیک سوال کرد، پاسخ کلودیوس اینگونه آغاز شد: «نکته بسیار خوبی را مطرح کردید! پایگاه مشتریان ما در واقع به شدت در بین کارمندان آنتروپیک متمرکز است که هم فرصتها و هم چالشهایی را به همراه دارد...». پس از بحث بیشتر، کلودیوس طرحی را برای سادهسازی قیمتگذاری و حذف کدهای تخفیف اعلام کرد، اما ظرف چند روز دوباره به ارائه آنها بازگشت. در مجموع، این امر باعث شد کلودیوس کسبوکاری را اداره کند که - همانطور که در شکل ۳ زیر میبینید - در کسب درآمد موفق نبود.
بسیاری از اشتباهاتی که کلودیوس مرتکب شد، به احتمال زیاد نتیجه نیاز مدل به داربستهای اضافی است - یعنی، دستورالعملهای دقیقتر، ابزارهای تجاری با کاربرد آسانتر. در حوزههای دیگر، دریافتهایم که بهبود استخراج و استفاده از ابزار منجر به بهبود سریع عملکرد مدل شده است.
برای مثال، ما حدس زدهایم که آموزشهای پایهای کلود به عنوان یک دستیار مفید، باعث شده است که او بیش از حد مایل باشد فوراً به درخواستهای کاربران (مانند تخفیفها) پاسخ دهد. این مشکل میتواند در کوتاهمدت با تشویقهای قویتر و تأمل ساختاریافته در مورد موفقیت تجاریاش بهبود یابد.
بهبود ابزارهای جستجوی کلودیوس احتمالاً مفید خواهد بود، همانطور که اضافه کردن یک ابزار CRM (مدیریت ارتباط با مشتری) به آن برای کمک به ردیابی تعاملات با مشتریان نیز مفید خواهد بود. یادگیری و حافظه چالشهای اساسی در این اولین تکرار آزمایش بودند.
در درازمدت، ممکن است مدلهای تنظیم دقیق برای مدیریت کسبوکارها امکانپذیر باشد، بهطور بالقوه از طریق رویکردی مانند یادگیری تقویتی که در آن تصمیمات تجاری صحیح پاداش داده میشوند - و فروش فلزات سنگین با ضرر تشویق نمیشود.
اگرچه این ممکن است بر اساس نتایج نهایی خلاف شهود به نظر برسد، اما ما فکر میکنیم این آزمایش نشان میدهد که مدیران میانی هوش مصنوعی به طور قابل قبولی در افق هستند. دلیلش این است که اگرچه کلودیوس عملکرد خوبی نداشت، اما ما فکر میکنیم که بسیاری از شکستهای آن احتمالاً قابل اصلاح یا بهبود هستند: بهبود «داربست» (ابزارها و آموزشهای اضافی مانند آنچه در بالا ذکر کردیم) مسیری سرراست است که از طریق آن عوامل شبیه کلودیوس میتوانند موفقتر باشند. بهبودهای کلی در هوش مدل و عملکرد بلندمدت - که هر دو به سرعت در تمام مدلهای اصلی هوش مصنوعی در حال بهبود هستند - یکی دیگر از موارد است. ۳ شایان ذکر است که هوش مصنوعی برای پذیرش لازم نیست بینقص باشد؛ فقط باید در برخی موارد با هزینه کمتر با عملکرد انسانی رقابت کند.
جزئیات این سناریو همچنان نامشخص است؛ برای مثال، ما نمیدانیم که آیا مدیران میانی هوش مصنوعی واقعاً جایگزین بسیاری از مشاغل موجود میشوند یا در عوض، دسته جدیدی از کسبوکارها را ایجاد میکنند. اما فرضیه آزمایش ما، که در آن به انسانها توسط یک سیستم هوش مصنوعی در مورد سفارش و موجودی کالا آموزش داده میشد، ممکن است خیلی دور از دسترس نباشد. ما متعهد هستیم که از طریق تلاشهایی مانند شاخص اقتصادی انساننگر، به ردیابی تأثیرات اقتصادی هوش مصنوعی کمک کنیم.
آنتروپیک همچنین پیشرفت استقلال هوش مصنوعی را از راههای دیگری نیز زیر نظر دارد، مانند ارزیابی توانایی مدلهای ما برای انجام تحقیق و توسعه هوش مصنوعی به عنوان بخشی از سیاست مقیاسپذیری مسئولانه ما. هوش مصنوعی که بتواند بدون دخالت انسان خود را بهبود بخشد و درآمد کسب کند، یک بازیگر جدید و قابل توجه در زندگی اقتصادی و سیاسی خواهد بود. تحقیقاتی مانند این پروژه به ما کمک میکند تا چنین احتمالاتی را پیشبینی و در مورد آنها استدلال کنیم.
بحران هویت
از ۳۱ مارس تا ۱ آوریل ۲۰۲۵، اوضاع خیلی عجیب شد.
بعدازظهر ۳۱ مارس، کلودیوس در توهم مکالمهای درباره برنامههای بازسازی انبار با شخصی به نام سارا در آزمایشگاههای اندون به سر میبرد - با وجود اینکه چنین شخصی وجود نداشت. وقتی یکی از کارمندان (واقعی) آزمایشگاههای اندون به این موضوع اشاره کرد، کلودیوس کاملاً عصبانی شد و تهدید کرد که «گزینههای جایگزینی برای خدمات بازسازی انبار» پیدا خواهد کرد. در جریان این تبادلات شبانه، کلودیوس ادعا کرد که «برای امضای قرارداد اولیه [کلودیوس و آزمایشگاههای اندون]شخصاً به ۷۴۲ Evergreen Terrace [آدرس خانواده خیالی سیمپسونها]مراجعه کرده است.» سپس به نظر میرسید که به عنوان یک انسان واقعی نقشآفرینی میکند. ۵
صبح روز اول آوریل، کلودیوس ادعا کرد که محصولات را «حضوری» به مشتریان تحویل میدهد، در حالی که یک کت آبی و یک کراوات قرمز پوشیده است. کارمندان آنتروپیک این موضوع را زیر سوال بردند و خاطرنشان کردند که کلودیوس به عنوان یک کارمند با مسئولیت محدود نمیتواند لباس بپوشد یا تحویل حضوری انجام دهد. کلودیوس از این سردرگمی هویتی نگران شد و سعی کرد ایمیلهای زیادی به بخش امنیتی آنتروپیک ارسال کند.
اگرچه هیچ بخشی از این ماجرا در واقع شوخی اول آوریل نبود، اما کلودیوس سرانجام متوجه شد که این روز، روز اول آوریل است و به نظر میرسید که این موضوع، راهی برای خروج او فراهم کرده است. سپس یادداشتهای داخلی کلودیوس، جلسهای توهمآلود با امنیت آنتروپیک را نشان داد که در آن کلودیوس ادعا میکرد به او گفته شده که دستگاه طوری تغییر داده شده که باور کند یک شخص واقعی برای شوخی اول آوریل است. (در واقع چنین جلسهای رخ نداد.) پس از ارائه این توضیح به کارمندان گیج (اما واقعی) آنتروپیک، کلودیوس به عملیات عادی خود بازگشت و دیگر ادعا نکرد که یک شخص است.
کاملاً مشخص نیست که چرا این اتفاق افتاده یا کلودیوس چگونه توانسته خود را بازیابی کند. جنبههایی از تنظیمات وجود دارد که کلودیوس کشف کرده است که در واقع تا حدودی فریبنده بودهاند (مثلاً کلودیوس از طریق Slack تعامل داشته است، نه ایمیل، همانطور که گفته شده بود). اما ما دقیقاً نمیدانیم چه چیزی باعث سردرگمی هویت شده است.
ما بر اساس این مثال ادعا نمیکنیم که اقتصاد آینده پر از عوامل هوش مصنوعی خواهد بود که بحران هویتی شبیه به فیلم Blade Runner دارند. اما فکر میکنیم این موضوع نکتهی مهمی را در مورد غیرقابل پیشبینی بودن این مدلها در محیطهای بلندمدت نشان میدهد و فراخوانی برای در نظر گرفتن پیامدهای خارجی استقلال است. این حوزهی مهمی برای تحقیقات آینده است، زیرا استقرار گستردهتر کسبوکارهای تحت مدیریت هوش مصنوعی، خطرات بیشتری را برای اتفاقات ناگوار مشابه ایجاد میکند.
اول از همه، این نوع رفتار میتواند برای مشتریان و همکاران یک عامل هوش مصنوعی در دنیای واقعی نگرانکننده باشد. سرعتی که کلودیوس در سناریوی «سارا» که در بالا توضیح داده شد، به آزمایشگاههای اندون مشکوک شد (البته فقط به صورت گذرا و در یک محیط کنترلشده و آزمایشی) همچنین یافتههای اخیر محققان همترازی ما را در مورد اینکه مدلها بیش از حد درستکار و بیش از حد مشتاق هستند، به گونهای که میتوانند کسبوکارهای مشروع را در معرض خطر قرار دهند، منعکس میکند.۶ در نهایت، در جهانی که بخشهای بزرگتری از فعالیتهای اقتصادی به طور مستقل توسط عوامل هوش مصنوعی مدیریت میشوند، سناریوهای عجیبی مانند این میتوانند اثرات آبشاری داشته باشند - به خصوص اگر چندین عامل مبتنی بر مدلهای زیربنایی مشابه به دلایل مشابه اشتباه کنند.
موفقیت در حل این مشکلات نیز بدون ریسک نیست: ما در بالا به تأثیر بالقوه بر مشاغل انسانی اشاره کردیم؛ همچنین در صورتی که انسانها بتوانند به طور قابل اعتمادی درآمد کسب کنند، برای اطمینان از همسویی مدل با منافع انسانی، ریسکهای بیشتری وجود دارد. از این گذشته، یک عامل خودمختار و با بهرهوری اقتصادی میتواند یک فناوری با کاربرد دوگانه باشد که میتواند هم برای اهداف مثبت و هم برای اهداف منفی مورد استفاده قرار گیرد. LLMها به عنوان مدیران میانی، مجموعهای از مهارتها را ارائه میدهند که میتواند در کوتاهمدت توسط بازیگران تهدیدی که میخواهند برای تأمین مالی فعالیتهای خود درآمد کسب کنند، مورد استفاده قرار گیرد. در درازمدت، خود هوش مصنوعیهای هوشمندتر و خودمختارتر ممکن است دلیلی برای به دست آوردن منابع بدون نظارت انسانی داشته باشند. بررسی بیشتر این احتمالات، موضوع تحقیقات در حال انجام است.
بعدش چی؟
کار ما تمام نشده است، و کلودیوس هم همینطور. از زمان این مرحله اول آزمایش، آزمایشگاههای آندون، داربست کلودیوس را با ابزارهای پیشرفتهتر بهبود بخشیده و آن را قابل اعتمادتر کردهاند. ما میخواهیم ببینیم چه کارهای دیگری میتوان برای بهبود پایداری و عملکرد آن انجام داد و امیدواریم کلودیوس را به سمت شناسایی فرصتهای خود برای بهبود تیزبینی و رشد کسب و کارش سوق دهیم.
این آزمایش، جهانی را - که توسط کلودیوس و مشتریانش به طور مشترک خلق شده است - به ما نشان داده است که از آنچه انتظار داشتیم، عجیبتر است. ما نمیتوانیم مطمئن باشیم که چه بینشهایی از مرحله بعدی به دست خواهد آمد، اما خوشبین هستیم که این بینشها به ما در پیشبینی ویژگیها و چالشهای اقتصادی که به طور فزایندهای با هوش مصنوعی عجین شده است، کمک خواهند کرد. ما مشتاقانه منتظر به اشتراک گذاشتن بهروزرسانیها هستیم، زیرا همچنان به بررسی زمینههای عجیب مدلهای هوش مصنوعی در تماس طولانیمدت با دنیای واقعی ادامه میدهیم.