به گزارش گروه دانشگاه خبرگزاری دانشجو و به نقل از ام آی تی نیوز؛ گاهی اوقات، ممکن است بهتر باشد یک ربات را در محیطی متفاوت با محیطی که در آن مستقر میشود آموزش دهید.
یک ربات خانگی که برای انجام کارهای خانگی در یک کارخانه آموزش دیده است، ممکن است در هنگام استقرار در آشپزخانه کاربر نتواند به طور موثر سینک را تمیز کند یا زبالهها را خارج کند، زیرا این محیط جدید با فضای آموزشی آن متفاوت است.
برای جلوگیری از این امر، مهندسان اغلب سعی میکنند محیط آموزشی شبیه سازی شده را تا حد امکان با دنیای واقعی که عامل در آن مستقر میشود، مطابقت دهند.
با این حال، محققان MIT و سایر محققان اکنون دریافتهاند که علیرغم این خرد متعارف، گاهی اوقات آموزش در یک محیط کاملاً متفاوت عامل هوش مصنوعی با عملکرد بهتری را به همراه دارد.
نتایج آنها نشان میدهد که در برخی شرایط، آموزش یک عامل هوش مصنوعی شبیهسازیشده در دنیایی با عدم قطعیت یا «نویز» کمتر، آن را قادر میسازد تا بهتر از یک عامل هوش مصنوعی رقیب که در همان دنیای پر سر و صدایی که برای آزمایش هر دو عامل استفاده میکردند، عمل کند. محققان این پدیده غیرمنتظره را اثر تمرین در فضای داخلی مینامند.
اگر ما یاد بگیریم که در محیطی سرپوشیده بازی تنیس بازی کنیم که سر و صدایی نداشته باشد، ممکن است بتوانیم راحتتر به ضربات مختلف تسلط پیدا کنیم. سرنا بونو، دستیار پژوهشی در آزمایشگاه رسانه MIT و توضیح میدهد که اگر به یک محیط پر سر و صداتر مانند زمین تنیس بادخیز برویم، میتوانیم نسبت به زمانی که در محیط بادی شروع به یادگیری کنیم، احتمال بیشتری برای خوب بازی کردن تنیس داشته باشیم. نویسنده اصلی مقاله در مورد اثر تمرین در فضای داخلی.
محققان این پدیده را با آموزش عوامل هوش مصنوعی برای انجام بازیهای آتاری مورد مطالعه قرار دادند که با افزودن مقداری غیرقابل پیشبینی، آن را اصلاح کردند. آنها از اینکه متوجه شدند که اثر تمرین در فضای داخلی به طور مداوم در بازیهای Atari و تغییرات بازی رخ میدهد، متعجب شدند.
آنها امیدوارند این نتایج تحقیقات بیشتری را برای توسعه روشهای آموزشی بهتر برای عوامل هوش مصنوعی فراهم کند.
این یک محور کاملاً جدید است که باید در مورد آن فکر کرد. به جای تلاش برای مطابقت با محیطهای آموزشی و آزمایشی، ممکن است بتوانیم محیطهای شبیه سازی شدهای بسازیم که در آن یک عامل هوش مصنوعی حتی بهتر یاد بگیرد.
بونو و مدان توسط ایشان گروور، دانشجوی فارغ التحصیل MIT، روی کاغذ به آنها ملحق میشوند. مائو یاسوئدا، دانشجوی کارشناسی ارشد در دانشگاه ییل؛ سینتیا بریزیل، استاد علوم و هنرهای رسانهای و رهبر گروه رباتیک شخصی در آزمایشگاه رسانه MIT؛ Hanspeter Pfister، پروفسور An Wang در علوم کامپیوتر در هاروارد؛ و گابریل کریمن، استاد دانشکده پزشکی هاروارد. این تحقیق در کنفرانس انجمن پیشرفت هوش مصنوعی ارائه خواهد شد.
مشکلات آموزشی
محققان در صدد برآمدند تا بررسی کنند که چرا عوامل یادگیری تقویتی هنگام آزمایش بر روی محیطهایی که با فضای آموزشی آنها متفاوت است، چنین عملکرد ضعیفی دارند.
یادگیری تقویتی یک روش آزمون و خطا است که در آن عامل فضای آموزشی را بررسی میکند و یاد میگیرد اقداماتی را انجام دهد که پاداش آن را به حداکثر میرساند.
این تیم تکنیکی را برای اضافه کردن مقدار مشخصی از نویز به یک عنصر از مشکل یادگیری تقویتی به نام تابع انتقال توسعه دادند. تابع انتقال، احتمال جابجایی یک عامل از حالتی به حالت دیگر را بر اساس اقدامی که انتخاب میکند، تعریف میکند.
اگر عامل در حال بازی Pac-Man باشد، یک تابع انتقال ممکن است احتمال حرکت ارواح روی صفحه بازی به بالا، پایین، چپ یا راست را مشخص کند. در یادگیری تقویتی استاندارد، هوش مصنوعی با استفاده از همان تابع انتقال آموزش داده و آزمایش میشود.
محققان با این رویکرد مرسوم نویز را به عملکرد انتقال اضافه کردند و همانطور که انتظار میرفت، به عملکرد Pac-Man عامل آسیب رساند.
اما زمانی که محققان عامل را با یک بازی Pac-Man بدون نویز آموزش دادند، سپس آن را در محیطی آزمایش کردند که در آن نویز را به عملکرد انتقال تزریق کردند، عملکرد آن بهتر از عاملی بود که در بازی پر سر و صدا آموزش دیده بود.
قاعده سرانگشتی این است که شما باید سعی کنید عملکرد انتقال شرایط استقرار را تا جایی که میتوانید در طول تمرین به تصویر بکشید تا بیشترین سود را به دست آورید. ما واقعاً این بینش را تا حد مرگ آزمایش کردیم، زیرا خودمان نمیتوانستیم آن را باور کنیم.
تزریق مقادیر مختلف نویز به تابع انتقال به محققان اجازه میدهد محیطهای زیادی را آزمایش کنند، اما بازیهای واقعگرایانه ایجاد نکرد. هرچه نویز بیشتری به Pac-Man تزریق کنند، ارواح بهطور تصادفی به مربعهای مختلف تلهپورت میکنند.
برای اینکه ببینند آیا اثر تمرین در فضای داخلی در بازیهای معمولی Pac-Man رخ میدهد یا خیر، آنها احتمالات زیربنایی را تنظیم کردند تا ارواح به طور عادی حرکت کنند، اما احتمال بیشتری داشت که به جای چپ و راست، بالا و پایین حرکت کنند. عوامل هوش مصنوعی آموزش دیده در محیطهای بدون نویز همچنان در این بازیهای واقع گرایانه عملکرد بهتری داشتند.
این فقط به دلیل نحوه اضافه کردن نویز برای ایجاد محیطهای موردی نبود. به نظر میرسد این ویژگی مشکل یادگیری تقویتی باشد. بونو میگوید و این حتی شگفتانگیزتر بود.
توضیحات اکتشافی
هنگامی که محققان در جستجوی توضیح عمیقتر بودند، متوجه شدند که چگونه عوامل هوش مصنوعی فضای آموزشی را کشف میکنند.
هنگامی که هر دو عامل هوش مصنوعی عمدتاً مناطق یکسانی را کاوش میکنند، عامل آموزش دیده در محیط بدون نویز عملکرد بهتری دارد، شاید به این دلیل که یادگیری قوانین بازی بدون تداخل نویز برای عامل آسانتر است.
اگر الگوهای اکتشاف آنها متفاوت باشد، عامل آموزش دیده در محیط پر سر و صدا تمایل به عملکرد بهتر دارد. این ممکن است به این دلیل رخ دهد که عامل نیاز به درک الگوهایی دارد که نمیتواند در محیط بدون نویز یاد بگیرد.
بونو توضیح میدهد: اگر فقط یاد بگیرم با فورهندم در محیط بدون سر و صدا تنیس بازی کنم، اما در محیط پر سر و صدا باید با بک هند هم بازی کنم، در محیطهای بدون سروصدا به خوبی بازی نخواهم کرد.
محققان امیدوارند در آینده بررسی کنند که چگونه اثر تمرین در محیط داخلی ممکن است در محیطهای یادگیری تقویتی پیچیدهتر یا با تکنیکهای دیگر مانند بینایی رایانه و پردازش زبان طبیعی رخ دهد. آنها همچنین میخواهند محیطهای آموزشی را بسازند که بهمنظور استفاده از اثر تمرین در فضای داخلی طراحی شده باشد، که میتواند به عوامل هوش مصنوعی کمک کند در محیطهای نامشخص عملکرد بهتری داشته باشند.