یادگیری سریعتر رباتهای هوش مصنوعی با کمک بازخورد انسانی

به گزارش گروه دانشگاه خبرگزاری دانشجو، در دانشگاه برکلی، محققان آزمایشگاه هوش مصنوعی و یادگیری رباتیک سرگئی لوین، میزی را دیدند که برجی از ۳۹ بلوک جنگا (Jenga) روی آن به طور کامل چیده شده بود. سپس یک ربات سفید و سیاه، که تنها اندامش مانند یک زرافه قوز کرده دولا شده بود، به سمت برج حرکت کرد و یک شلاق چرمی سیاه را تکان داد. در چیزی که ممکن است برای یک بیننده معمولی مانند یک معجزه فیزیک به نظر برسد، شلاق دقیقاً به نقطه مناسب برخورد کرد و یک بلوک را از روی توده به هوا پرتاب کرد، در حالی که بقیه برج از نظر ساختاری سالم باقی ماند.
این کار که با نام «بازی جنگا» شناخته میشود، سرگرمی افرادی است که مهارت و رفلکس بالایی برای انجام آن دارند. اکنون، به لطف یک روش آموزشی جدید مبتنی بر هوش مصنوعی که توسط لوین و دیگر اعضای تیم ایجاد شده است، رباتها بر آن مسلط شدهاند.
این سیستم جدید که یادگیری تقویتی رباتیک کارآمد نمونهگیری انسان در حلقه (HiL-SERL) نام دارد، در مطالعهای که در ۲۰ آگوست در مجله Science Robotics منتشر شد، شرح داده شده است.
این پروتکل آموزشی با مطالعهی نمایشها و یادگیری از بازخوردهای انسانی و تلاشهای واقعی خود، به رباتها میآموزد که چگونه کارهای پیچیدهای مانند بازی Jenga را با نرخ موفقیت ۱۰۰٪ انجام دهند. علاوه بر این، رباتها با سرعت چشمگیری آموزش میبینند و آنها را قادر میسازد تا در عرض یک تا دو ساعت یاد بگیرند که چگونه مادربرد کامپیوتر را به طور کامل مونتاژ کنند، یک قفسه بسازند و موارد دیگر را انجام دهند.
جیانلان لو، نویسنده اول این مطالعه و محقق فوق دکترا در دانشگاه برکلی، گفت: «اولین باری که ربات در چالش شلاق زدن جنگا پیروز شد، واقعاً مرا شوکه کرد. وظیفه جنگا برای اکثر انسانها بسیار دشوار است. من آن را با شلاق در دستم امتحان کردم؛ میزان موفقیت من صفر درصد بود.»
در سالهای اخیر، حوزه یادگیری رباتها به دنبال حل چالش چگونگی آموزش فعالیتهای غیرقابل پیشبینی یا پیچیده به ماشینها بوده است، برخلاف یک عمل واحد، مانند برداشتن مکرر یک شیء از یک مکان خاص روی تسمه نقاله. برای حل این مشکل، آزمایشگاه لوین بر روی چیزی که "یادگیری تقویتی" نامیده میشود، تمرکز کرده است. در یادگیری تقویتی، یک ربات در دنیای واقعی تلاش میکند و با استفاده از بازخورد دوربینها، از اشتباهات خود درس میگیرد تا در نهایت بر آن مهارت تسلط یابد.
در این مطالعه جدید، مداخله انسانی برای سرعت بخشیدن به این فرآیند اضافه شده است. با یک ماوس مخصوص که ربات را کنترل میکند، انسان میتواند مسیر ربات را اصلاح کند و این اصلاحات میتواند در بانک حافظه ضربالمثلی ربات گنجانده شود. با استفاده از یادگیری تقویتی، ربات مجموع تمام تلاشهای خود - با کمک و بدون کمک، موفق و ناموفق - را برای انجام بهتر وظیفه خود تجزیه و تحلیل میکند. لو گفت که با افزایش تجربه، نیاز به مداخله انسان کمتر و کمتر میشود.
او گفت: «شاید لازم بود در ۳۰٪ اول یا چیزی حدود آن، از ربات مراقبت کنم، و بعد کمکم میتوانستم کمتر به آن توجه کنم.»
آزمایشگاه، سیستم رباتیک خود را از میان انبوهی از وظایف پیچیده فراتر از بازی Jenga عبور داد. ربات یک تخممرغ را در ماهیتابه چرخاند؛ جسمی را از یک بازو به بازوی دیگر منتقل کرد؛ و یک مادربرد، داشبورد ماشین و تسمه تایم را مونتاژ کرد. محققان این چالشها را انتخاب کردند، زیرا متنوع بودند و به گفته لو، نشاندهنده «انواع عدم قطعیت هنگام انجام وظایف رباتیک در دنیای واقعی پیچیده» بودند.
محققان همچنین با صحنهسازی اتفاقات ناگوار، سازگاری رباتها را آزمایش کردند. آنها یک چنگک را مجبور به باز شدن میکردند تا یک شیء را رها کند یا یک مادربرد را حرکت دهد، در حالی که ربات سعی در نصب یک میکروچیپ داشت و به آن آموزش میداد تا به موقعیت متغیری که ممکن است در خارج از محیط آزمایشگاه با آن مواجه شود، واکنش نشان دهد.
در پایان آموزش، ربات میتوانست این وظایف را ۱۰۰٪ مواقع به درستی انجام دهد. محققان نتایج خود را با یک روش رایج «کپی کردن رفتار من» که به عنوان شبیهسازی رفتاری شناخته میشود و بر روی همان مقدار دادههای نمایشی آموزش دیده بود، مقایسه کردند؛ سیستم جدید آنها رباتها را سریعتر و دقیقتر کرد.
لو گفت، این معیارها بسیار مهم هستند، زیرا معیار شایستگی ربات بسیار بالاست. مصرفکنندگان عادی و صنعتگران به طور یکسان نمیخواهند یک ربات ناهماهنگ بخرند. لو تأکید کرد که به طور خاص، فرآیندهای تولید «سفارشی» مانند فرآیندهایی که اغلب برای قطعات الکترونیکی، خودرو و هوافضا استفاده میشوند، میتوانند از رباتهایی که میتوانند به طور قابل اعتماد و سازگار طیف وسیعی از وظایف را یاد بگیرند، بهرهمند شوند.
لو گفت، گام بعدی این است که سیستم را با قابلیتهای اولیهی دستکاری اشیاء از قبل آموزش دهیم، که نیاز به یادگیری این قابلیتها را از ابتدا از بین میبرد و در عوض مستقیماً به سمت کسب مهارتهای پیچیدهتر پیش میرود. این آزمایشگاه همچنین تصمیم گرفت تحقیقات خود را به صورت متنباز منتشر کند تا سایر محققان بتوانند از آن استفاده کرده و بر اساس آن کار کنند.
لو گفت: هدف اصلی این پروژه این است که این فناوری را به اندازه آیفون در دسترس و کاربرپسند کنیم. من کاملاً معتقدم که هر چه افراد بیشتری بتوانند از آن استفاده کنند، میتوانیم تأثیر بیشتری بگذاریم.