یادگیری شطرنج انسانی از دل ۹۱ میلیون بازی؛ آلی وارد میدان شد

به گزارش گروه دانشگاه خبرگزاری دانشجو، ییمینگ ژانگ با بازی شطرنج بزرگ نشده است. این دانشجوی دکترای دانشگاه کارنگی ملون، مانند بسیاری از افراد دیگر، در طول همهگیری با سریال نتفلیکس «گامبی ملکه» آشنا شد و شروع به بازی آنلاین کرد. با این حال، او به سرعت متوجه شد که بازی در مقابل رباتهای شطرنج چقدر غیرطبیعی است.
ژانگ، که عضوی از موسسه فناوریهای زبان (LTI) در دانشکده علوم کامپیوتر دانشگاه CMU است، گفت: «بعد از اینکه قوانین را یاد گرفتم، جزو ۱۰ درصد آخر بودم، شاید ۲۰ درصد از بازیکنان آنلاین. برای مبتدیان، بازی در مقابل رباتهای شطرنج جالب یا آموزنده نیست، زیرا حرکاتی که انجام میدهند اغلب برای انسانها عجیب و غریب و غیرقابل درک است.»
ناامیدی ژانگ او را به سمت توسعهی «آلی»، یک ربات شطرنج مجهز به هوش مصنوعی سوق داد که مزایای ابزارهای هوش مصنوعی که مانند انسان فکر میکنند را نشان میدهد. او معتقد است که آموزش سیستمهای هوش مصنوعی آینده برای تفکر و تعمق در مورد مسائل پیچیده میتواند عوامل بهتری را برای استفاده در درمان، آموزش و پزشکی ایجاد کند.
دافنه ایپولیتو، مشاور ژانگ و استادیار LTI، گفت: «وسواس زیادی برای ساخت هوش مصنوعی فوق بشری وجود داشته است که در ریاضی یا سایر وظایف استدلالی از اکثر انسانها بهتر باشد. اما فرصتهای زیادی برای ما وجود دارد تا مدلهای هوش مصنوعی را طوری آموزش دهیم که مانند انسانها عمل کنند و من فکر میکنم این موضوع ارزش بررسی دارد.»
آلی شبیه به یک انسان بازی میکند و میتواند با نقاط قوت مختلف، از مبتدی تا متخصص، سازگار شود. این ربات مشابه مدلهای زبانی که زیربنای چتباتهای مدرن مانند ChatGPT هستند، آموزش دیده است. اما به جای اینکه متن آلی را از اینترنت دریافت کند، تیم آن را با ۹۱ میلیون رونوشت از پلتفرم شطرنج محبوب Lichess آموزش داد. قرار دادن آلی در معرض رونوشتهای بازیهای شطرنج انجام شده توسط انسانها به او آموخت که چگونه حرکاتی را که یک بازیکن انسانی انجام میدهد، انجام دهد، برای تفکر در موقعیتهای بحرانی وقت بگذارد و وقتی بازی غیرقابل برد است، تسلیم شود.
دنیل فرید، استادیار LTI که روی این پروژه کار میکرد، گفت: «من از اینکه چگونه روشهای تطبیقی که ما استفاده کردیم، رویههای جستجوی کلاسیک هوش مصنوعی را با مدلسازی رفتار انسان ترکیب میکنند و اینکه چگونه این ترکیب بهتر از هر دو روش به تنهایی است، هیجانزدهام.» «روشهایی مانند روشهایی که ما استفاده کردیم، قبلاً در بازیهای پیچیدهای مانند دیپلماسی به کار رفتهاند و من از دیدن استفاده از آنها در وظایف دیگری که هوش مصنوعی باید به صورت استراتژیک، اما به روشهای سازگار با انسان عمل کند، هیجانزدهام.»
بیشتر موتورهای شطرنج با یک هدف ساخته میشوند: پیروزی. آنها حرکات بیشماری را در آینده شبیهسازی میکنند و انواع مختلف حرکات خود را در یک حلقه خودبهبودی و بدون دادههای انسانی، در مقابل یکدیگر قرار میدهند. این رویکرد منجر به سیستمهایی با قدرت تقریباً شکستناپذیر، مانند AlphaZero یا Stockfish میشود که آنها را به حریفانی ناخوشایند برای بازیکنان معمولی و مبتدیان تبدیل میکند.
ژانگ گفت: «قبل از آلی، موتور شطرنجی که نحوه تفکر مردم را مدلسازی کند، وجود نداشت. رباتهای شطرنج فوراً در موقعیتهای پیچیدهای حرکت میکردند که در آن انسانها برای بررسی گزینههای مختلف به زمان نیاز داشتند، یا در موقعیتهای کاملاً باخته که در آن انسانها معمولاً تسلیم میشدند، به بازی ادامه میدادند. این باعث میشد هوش مصنوعی شطرنج موجود غیرطبیعی به نظر برسد.»
وقتی از تیم در مورد برنامههای آینده سوال شد، آنها توضیح دادند که Allie کاملاً متنباز است و از زمان استقرارش در Lichess نزدیک به ۱۰،۰۰۰ بازی جمعآوری کرده است.
ایپولیتو گفت: «پروژه ما معنادار است، زیرا نحوه تعامل افراد با هوش مصنوعی را که سعی در انسانگونه بودن دارد، ارزیابی میکند. ما همچنین عمداً یک پلتفرم متنباز ساختیم که مردم میتوانند از آن برای ساخت و ساز استفاده کنند.»
آلی در کنفرانس بینالمللی ۲۰۲۵ در مورد بازنماییهای یادگیری در سنگاپور، یکی از مکانهای برتر برای تحقیقات یادگیری ماشینی، ارائه شد. ژانگ، ایپولیتو و فرید در این پروژه با آتول پاول جیکوب، دانشجوی دکترا در موسسه فناوری ماساچوست و ویوین لای، محقق ویزا، همکاری کردند.