Megerősítéses tanulás egy gépi
tanulási módszer, ahol a modellnek nem egyetlen döntést, hanem döntések
sorozatát kell meghozni. Az elemi döntések helyességére nem kap
visszajelzést, csak a cselekvéssorozat végén kap jutalmat/büntetést. A
megerősítéses tanulás azon alapszik, hogy az algoritmus az adott környezetből
kapott jutalmak és büntetések alapján hoz döntéseket, és próbálja
maximalizálni a várható jutalmat az adott feladatban.