למידת חיזוק

למידה באמצעות חיזוקים (באנגלית: Reinforcement Learning), היא שיטת למידה חישובית (למידת מכונה) בתחום מדעי המחשב, המושפעת מהביהביוריזם, ומבוססת על ביצוע פעולות מגובשות אשר נסמכות על חיזוקים חיוביים או שליליים.

מודל הלמידה באמצעות חיזוקים מבוסס על למידה מתוך ניסוי וטעיה שמתבצעת בסדרת אינטראקציות בין סוכן לומד (רכיב תוכנה או רובוט) לבין סביבתו המיוצגת כמידע חושי (סנסורי) הזמין לסוכן הלומד. בכל אינטראקציה כזאת, מקבל הסוכן מידע מסביבתו לגבי המצב הנתון ובוחר לבצע פעולה ממרחב הפעולות הזמין לו בהתאם למדיניות הפעולה הנוכחית. בתגובה מתקבל אות תגמול שהוא ערך מספרי המבטא את חיוניות הפעולה בהתאם למצב ועל פיו מעדכן הסוכן את מדיניותו עבור האינטראקציות הבאות. מטרתו של הסוכן הלומד היא לגבש מדיניות פעולה הממפה בין מרחב המצבים האפשריים למרחב הפעולות כך שהתגמול הכולל (המבוטא כסכום משוקלל של אותות התגמול שהתקבלו החל מתחילת הניסוי) עבור ביצוע פעולות על סמך מדיניות זו יהיה גבוה ככל שניתן.

לרוב ניתן לתאר את בעיית הלמידה כתהליך החלטה מרקובי (Markov Decision Process), במקרה זה ניתן להפעיל בהתאם אלגוריתמים כגון:

Q-learning
Sarsa
Value Iteration
Policy Iteration
R-Max
שיטת מונטה קרלו

כמו כן קיימות גרסאות של אלגוריתמים אלה עבור מקרים בהם התהליך המרקובי ניתן לצפיה חלקית בלבד (POMDP).

קישורים חיצוניים

ספר מקוון בנושא למידת חיזוק

This article is issued from Hamichlol. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.