در این قسمت توضیحاتی در مورد نحوه ی اجرای
برنامه ارائه خواهیم داد:
برای اجرای برنامه از میان
فایل های موجود، روی فایل robo_ctrl_panel.m دابل کلیک کنید. پس از اجرای برنامه، پنجره اصلی آن
همانند شکل بالا نمایش داده میشود. این پنجره، پنجره اصلی برنامه بوده که کنترل رباط
مورد بررسی با استفاده از آن صورت میگیرد. برای اجرای برنامه نیاز است که یک رباط از
طریق پورت سریال COM3 به دستگاه رایانه متصل شود. پس از اتصال، میتوان از
منوی اصلی، رباط را با استفاده از دکمه¬های پیش بینی شده کنترل کرد.
از میان توابع موجود، مهمترین
تابع، REINFORCEMENT_LEARNING است که عمل یادگیری تقویتی رباط با استفاده از آن صورت می-گیرد. یادگیری تقویتی
(Reinforcement Learning) یکی
از روش های یادگیری در سیستم های هوشمند است که براساس رابطه ی علت و معلولی عمل می
کند. در این روش یادگیری عامل هوشمند (Agent) با
توجه به وضعیتی که در محیط دارد، عملی را بر روی محیط انجام می دهد و منتظر نتیجه ی
عملش می ماند. این نتیجه می تواند در قالب یک پاداش یا تنبیه باشد. اگر نتیجه در قالب
پاداش باشد، عمل انجام شده مطلوب بوده و عامل به هدفی که در آن محیط دارد نزدیک شده
است. ولی اگر نتیجه در قالب تنبیه باشد، عمل انجام شده نامطلوب بوده و عامل از هدفش
دور شده است. عامل باید یاد بگیرید که چه اعمالی را انجام دهد تا پاداش بیش تری را
کسب کند و در نهایت به هدفش برسد.
همه ی ما در کودکی با الگویی مشابه یادگیری تقویتی
راه رفتن را آموختیم. زمانی که پس از چندین گام برداشتن به زمین می خوردیم (تنبیه)،
سعی می کردیم اعمال حرکتی خود را به گونه ای اصلاح کنیم تا تعادل خود را به هنگام راه
رفتن حفظ کنیم (پاداش). در نهایت هم به هدف خود که راه رفتن بود رسیدیم. در واقع در
یادگیری تقویتی بازخوردی به صورت عبارات کمکی
مثبت (پاداش) یا منفی (جریمه) به عامل یادگیرنده داده می شود. غالبا پاداش ها مقادیر
اسکالری همچون 1- برای یک کار بد و +1 برای یک کار خوب هستنند.