آخرین اخبار:
کد خبر:۱۲۲۲۶۲۱

هوش مصنوعی چگونه یاد می‌گیرد؟ / روش نوین آموزش توسط دانشمندان دانشگاه MIT

با این حال، محققان MIT و سایر محققان اکنون دریافته‌اند که علی‌رغم این خرد متعارف، گاهی اوقات آموزش در یک محیط کاملاً متفاوت عامل هوش مصنوعی با عملکرد بهتری را به همراه دارد.

به گزارش گروه دانشگاه خبرگزاری دانشجو و به نقل از ام آی تی نیوز؛  گاهی اوقات، ممکن است بهتر باشد یک ربات را در محیطی متفاوت با محیطی که در آن مستقر می‌شود آموزش دهید.

یک ربات خانگی که برای انجام کار‌های خانگی در یک کارخانه آموزش دیده است، ممکن است در هنگام استقرار در آشپزخانه کاربر نتواند به طور موثر سینک را تمیز کند یا زباله‌ها را خارج کند، زیرا این محیط جدید با فضای آموزشی آن متفاوت است.

برای جلوگیری از این امر، مهندسان اغلب سعی می‌کنند محیط آموزشی شبیه سازی شده را تا حد امکان با دنیای واقعی که عامل در آن مستقر می‌شود، مطابقت دهند.

با این حال، محققان MIT و سایر محققان اکنون دریافته‌اند که علی‌رغم این خرد متعارف، گاهی اوقات آموزش در یک محیط کاملاً متفاوت عامل هوش مصنوعی با عملکرد بهتری را به همراه دارد.

نتایج آنها نشان می‌دهد که در برخی شرایط، آموزش یک عامل هوش مصنوعی شبیه‌سازی‌شده در دنیایی با عدم قطعیت یا «نویز» کمتر، آن را قادر می‌سازد تا بهتر از یک عامل هوش مصنوعی رقیب که در همان دنیای پر سر و صدایی که برای آزمایش هر دو عامل استفاده می‌کردند، عمل کند. محققان این پدیده غیرمنتظره را اثر تمرین در فضای داخلی می‌نامند.

اگر ما یاد بگیریم که در محیطی سرپوشیده بازی تنیس بازی کنیم که سر و صدایی نداشته باشد، ممکن است بتوانیم راحت‌تر به ضربات مختلف تسلط پیدا کنیم. سرنا بونو، دستیار پژوهشی در آزمایشگاه رسانه MIT و توضیح می‌دهد که اگر به یک محیط پر سر و صداتر مانند زمین تنیس بادخیز برویم، می‌توانیم نسبت به زمانی که در محیط بادی شروع به یادگیری کنیم، احتمال بیشتری برای خوب بازی کردن تنیس داشته باشیم. نویسنده اصلی مقاله در مورد اثر تمرین در فضای داخلی.

محققان این پدیده را با آموزش عوامل هوش مصنوعی برای انجام بازی‌های آتاری مورد مطالعه قرار دادند که با افزودن مقداری غیرقابل پیش‌بینی، آن را اصلاح کردند. آنها از اینکه متوجه شدند که اثر تمرین در فضای داخلی به طور مداوم در بازی‌های Atari و تغییرات بازی رخ می‌دهد، متعجب شدند.

آنها امیدوارند این نتایج تحقیقات بیشتری را برای توسعه روش‌های آموزشی بهتر برای عوامل هوش مصنوعی فراهم کند.

این یک محور کاملاً جدید است که باید در مورد آن فکر کرد. به جای تلاش برای مطابقت با محیط‌های آموزشی و آزمایشی، ممکن است بتوانیم محیط‌های شبیه سازی شده‌ای بسازیم که در آن یک عامل هوش مصنوعی حتی بهتر یاد بگیرد.

بونو و مدان توسط ایشان گروور، دانشجوی فارغ التحصیل MIT، روی کاغذ به آنها ملحق می‌شوند. مائو یاسوئدا، دانشجوی کارشناسی ارشد در دانشگاه ییل؛ سینتیا بریزیل، استاد علوم و هنر‌های رسانه‌ای و رهبر گروه رباتیک شخصی در آزمایشگاه رسانه MIT؛ Hanspeter Pfister، پروفسور An Wang در علوم کامپیوتر در هاروارد؛ و گابریل کریمن، استاد دانشکده پزشکی هاروارد. این تحقیق در کنفرانس انجمن پیشرفت هوش مصنوعی ارائه خواهد شد.

مشکلات آموزشی

محققان در صدد برآمدند تا بررسی کنند که چرا عوامل یادگیری تقویتی هنگام آزمایش بر روی محیط‌هایی که با فضای آموزشی آنها متفاوت است، چنین عملکرد ضعیفی دارند.

یادگیری تقویتی یک روش آزمون و خطا است که در آن عامل فضای آموزشی را بررسی می‌کند و یاد می‌گیرد اقداماتی را انجام دهد که پاداش آن را به حداکثر می‌رساند.

این تیم تکنیکی را برای اضافه کردن مقدار مشخصی از نویز به یک عنصر از مشکل یادگیری تقویتی به نام تابع انتقال توسعه دادند. تابع انتقال، احتمال جابجایی یک عامل از حالتی به حالت دیگر را بر اساس اقدامی که انتخاب می‌کند، تعریف می‌کند.

اگر عامل در حال بازی Pac-Man باشد، یک تابع انتقال ممکن است احتمال حرکت ارواح روی صفحه بازی به بالا، پایین، چپ یا راست را مشخص کند. در یادگیری تقویتی استاندارد، هوش مصنوعی با استفاده از همان تابع انتقال آموزش داده و آزمایش می‌شود.

محققان با این رویکرد مرسوم نویز را به عملکرد انتقال اضافه کردند و همانطور که انتظار می‌رفت، به عملکرد Pac-Man عامل آسیب رساند.

اما زمانی که محققان عامل را با یک بازی Pac-Man بدون نویز آموزش دادند، سپس آن را در محیطی آزمایش کردند که در آن نویز را به عملکرد انتقال تزریق کردند، عملکرد آن بهتر از عاملی بود که در بازی پر سر و صدا آموزش دیده بود.

قاعده سرانگشتی این است که شما باید سعی کنید عملکرد انتقال شرایط استقرار را تا جایی که می‌توانید در طول تمرین به تصویر بکشید تا بیشترین سود را به دست آورید. ما واقعاً این بینش را تا حد مرگ آزمایش کردیم، زیرا خودمان نمی‌توانستیم آن را باور کنیم.

تزریق مقادیر مختلف نویز به تابع انتقال به محققان اجازه می‌دهد محیط‌های زیادی را آزمایش کنند، اما بازی‌های واقع‌گرایانه ایجاد نکرد. هرچه نویز بیشتری به Pac-Man تزریق کنند، ارواح به‌طور تصادفی به مربع‌های مختلف تله‌پورت می‌کنند.

برای اینکه ببینند آیا اثر تمرین در فضای داخلی در بازی‌های معمولی Pac-Man رخ می‌دهد یا خیر، آنها احتمالات زیربنایی را تنظیم کردند تا ارواح به طور عادی حرکت کنند، اما احتمال بیشتری داشت که به جای چپ و راست، بالا و پایین حرکت کنند. عوامل هوش مصنوعی آموزش دیده در محیط‌های بدون نویز همچنان در این بازی‌های واقع گرایانه عملکرد بهتری داشتند.

این فقط به دلیل نحوه اضافه کردن نویز برای ایجاد محیط‌های موردی نبود. به نظر می‌رسد این ویژگی مشکل یادگیری تقویتی باشد. بونو می‌گوید و این حتی شگفت‌انگیزتر بود.

توضیحات اکتشافی

هنگامی که محققان در جستجوی توضیح عمیق‌تر بودند، متوجه شدند که چگونه عوامل هوش مصنوعی فضای آموزشی را کشف می‌کنند.

هنگامی که هر دو عامل هوش مصنوعی عمدتاً مناطق یکسانی را کاوش می‌کنند، عامل آموزش دیده در محیط بدون نویز عملکرد بهتری دارد، شاید به این دلیل که یادگیری قوانین بازی بدون تداخل نویز برای عامل آسان‌تر است.

اگر الگو‌های اکتشاف آنها متفاوت باشد، عامل آموزش دیده در محیط پر سر و صدا تمایل به عملکرد بهتر دارد. این ممکن است به این دلیل رخ دهد که عامل نیاز به درک الگو‌هایی دارد که نمی‌تواند در محیط بدون نویز یاد بگیرد.

بونو توضیح می‌دهد: اگر فقط یاد بگیرم با فورهندم در محیط بدون سر و صدا تنیس بازی کنم، اما در محیط پر سر و صدا باید با بک هند هم بازی کنم، در محیط‌های بدون سروصدا به خوبی بازی نخواهم کرد.

محققان امیدوارند در آینده بررسی کنند که چگونه اثر تمرین در محیط داخلی ممکن است در محیط‌های یادگیری تقویتی پیچیده‌تر یا با تکنیک‌های دیگر مانند بینایی رایانه و پردازش زبان طبیعی رخ دهد. آنها همچنین می‌خواهند محیط‌های آموزشی را بسازند که به‌منظور استفاده از اثر تمرین در فضای داخلی طراحی شده باشد، که می‌تواند به عوامل هوش مصنوعی کمک کند در محیط‌های نامشخص عملکرد بهتری داشته باشند.

ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار