آخرین اخبار:
کد خبر:۱۲۹۷۰۶۴

یادگیری سریع‌تر ربات‌های هوش مصنوعی با کمک بازخورد انسانی

پژوهش‌های تازه نشان می‌دهد ربات‌های مجهز به هوش مصنوعی زمانی که در کنار داده‌های ماشینی از بازخورد انسانی نیز بهره‌مند شوند، وظایف محوله را با دقت و سرعت بیشتری فرا می‌گیرند؛ رویکردی که می‌تواند نسل تازه‌ای از ربات‌های کارآمدتر و هوشمندتر را به همراه داشته باشد.
یادگیری سریع‌تر ربات‌های هوش مصنوعی با کمک بازخورد انسانی

به گزارش گروه دانشگاه خبرگزاری دانشجو، در دانشگاه برکلی، محققان آزمایشگاه هوش مصنوعی و یادگیری رباتیک سرگئی لوین، میزی را دیدند که برجی از ۳۹ بلوک جنگا (Jenga) روی آن به طور کامل چیده شده بود. سپس یک ربات سفید و سیاه، که تنها اندامش مانند یک زرافه قوز کرده دولا شده بود، به سمت برج حرکت کرد و یک شلاق چرمی سیاه را تکان داد. در چیزی که ممکن است برای یک بیننده معمولی مانند یک معجزه فیزیک به نظر برسد، شلاق دقیقاً به نقطه مناسب برخورد کرد و یک بلوک را از روی توده به هوا پرتاب کرد، در حالی که بقیه برج از نظر ساختاری سالم باقی ماند.

 

این کار که با نام «بازی جنگا» شناخته می‌شود، سرگرمی افرادی است که مهارت و رفلکس بالایی برای انجام آن دارند. اکنون، به لطف یک روش آموزشی جدید مبتنی بر هوش مصنوعی که توسط لوین و دیگر اعضای تیم ایجاد شده است، ربات‌ها بر آن مسلط شده‌اند.

 

این سیستم جدید که یادگیری تقویتی رباتیک کارآمد نمونه‌گیری انسان در حلقه (HiL-SERL) نام دارد، در مطالعه‌ای که در ۲۰ آگوست در مجله Science Robotics منتشر شد، شرح داده شده است.

 

این پروتکل آموزشی با مطالعه‌ی نمایش‌ها و یادگیری از بازخورد‌های انسانی و تلاش‌های واقعی خود، به ربات‌ها می‌آموزد که چگونه کار‌های پیچیده‌ای مانند بازی Jenga را با نرخ موفقیت ۱۰۰٪ انجام دهند. علاوه بر این، ربات‌ها با سرعت چشمگیری آموزش می‌بینند و آنها را قادر می‌سازد تا در عرض یک تا دو ساعت یاد بگیرند که چگونه مادربرد کامپیوتر را به طور کامل مونتاژ کنند، یک قفسه بسازند و موارد دیگر را انجام دهند.

 

جیانلان لو، نویسنده اول این مطالعه و محقق فوق دکترا در دانشگاه برکلی، گفت: «اولین باری که ربات در چالش شلاق زدن جنگا پیروز شد، واقعاً مرا شوکه کرد. وظیفه جنگا برای اکثر انسان‌ها بسیار دشوار است. من آن را با شلاق در دستم امتحان کردم؛ میزان موفقیت من صفر درصد بود.»

 

در سال‌های اخیر، حوزه یادگیری ربات‌ها به دنبال حل چالش چگونگی آموزش فعالیت‌های غیرقابل پیش‌بینی یا پیچیده به ماشین‌ها بوده است، برخلاف یک عمل واحد، مانند برداشتن مکرر یک شیء از یک مکان خاص روی تسمه نقاله. برای حل این مشکل، آزمایشگاه لوین بر روی چیزی که "یادگیری تقویتی" نامیده می‌شود، تمرکز کرده است. در یادگیری تقویتی، یک ربات در دنیای واقعی تلاش می‌کند و با استفاده از بازخورد دوربین‌ها، از اشتباهات خود درس می‌گیرد تا در نهایت بر آن مهارت تسلط یابد.

 

در این مطالعه جدید، مداخله انسانی برای سرعت بخشیدن به این فرآیند اضافه شده است. با یک ماوس مخصوص که ربات را کنترل می‌کند، انسان می‌تواند مسیر ربات را اصلاح کند و این اصلاحات می‌تواند در بانک حافظه ضرب‌المثلی ربات گنجانده شود. با استفاده از یادگیری تقویتی، ربات مجموع تمام تلاش‌های خود - با کمک و بدون کمک، موفق و ناموفق - را برای انجام بهتر وظیفه خود تجزیه و تحلیل می‌کند. لو گفت که با افزایش تجربه، نیاز به مداخله انسان کمتر و کمتر می‌شود.

 

او گفت: «شاید لازم بود در ۳۰٪ اول یا چیزی حدود آن، از ربات مراقبت کنم، و بعد کم‌کم می‌توانستم کمتر به آن توجه کنم.»

 

آزمایشگاه، سیستم رباتیک خود را از میان انبوهی از وظایف پیچیده فراتر از بازی Jenga عبور داد. ربات یک تخم‌مرغ را در ماهیتابه چرخاند؛ جسمی را از یک بازو به بازوی دیگر منتقل کرد؛ و یک مادربرد، داشبورد ماشین و تسمه تایم را مونتاژ کرد. محققان این چالش‌ها را انتخاب کردند، زیرا متنوع بودند و به گفته لو، نشان‌دهنده «انواع عدم قطعیت هنگام انجام وظایف رباتیک در دنیای واقعی پیچیده» بودند.

 

محققان همچنین با صحنه‌سازی اتفاقات ناگوار، سازگاری ربات‌ها را آزمایش کردند. آنها یک چنگک را مجبور به باز شدن می‌کردند تا یک شیء را رها کند یا یک مادربرد را حرکت دهد، در حالی که ربات سعی در نصب یک میکروچیپ داشت و به آن آموزش می‌داد تا به موقعیت متغیری که ممکن است در خارج از محیط آزمایشگاه با آن مواجه شود، واکنش نشان دهد.

 

در پایان آموزش، ربات می‌توانست این وظایف را ۱۰۰٪ مواقع به درستی انجام دهد. محققان نتایج خود را با یک روش رایج «کپی کردن رفتار من» که به عنوان شبیه‌سازی رفتاری شناخته می‌شود و بر روی همان مقدار داده‌های نمایشی آموزش دیده بود، مقایسه کردند؛ سیستم جدید آنها ربات‌ها را سریع‌تر و دقیق‌تر کرد.

 

لو گفت، این معیار‌ها بسیار مهم هستند، زیرا معیار شایستگی ربات بسیار بالاست. مصرف‌کنندگان عادی و صنعتگران به طور یکسان نمی‌خواهند یک ربات ناهماهنگ بخرند. لو تأکید کرد که به طور خاص، فرآیند‌های تولید «سفارشی» مانند فرآیند‌هایی که اغلب برای قطعات الکترونیکی، خودرو و هوافضا استفاده می‌شوند، می‌توانند از ربات‌هایی که می‌توانند به طور قابل اعتماد و سازگار طیف وسیعی از وظایف را یاد بگیرند، بهره‌مند شوند.

 

لو گفت، گام بعدی این است که سیستم را با قابلیت‌های اولیه‌ی دستکاری اشیاء از قبل آموزش دهیم، که نیاز به یادگیری این قابلیت‌ها را از ابتدا از بین می‌برد و در عوض مستقیماً به سمت کسب مهارت‌های پیچیده‌تر پیش می‌رود. این آزمایشگاه همچنین تصمیم گرفت تحقیقات خود را به صورت متن‌باز منتشر کند تا سایر محققان بتوانند از آن استفاده کرده و بر اساس آن کار کنند.

 

لو گفت: هدف اصلی این پروژه این است که این فناوری را به اندازه آیفون در دسترس و کاربرپسند کنیم. من کاملاً معتقدم که هر چه افراد بیشتری بتوانند از آن استفاده کنند، می‌توانیم تأثیر بیشتری بگذاریم.

ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار