Core Concepts
Risikoempfindliche Verstärkungslernen-Algorithmen können eine geringere Iterationskomplexität aufweisen als ihre risikoneutralen Pendants, wenn der Risikoparameter sorgfältig gewählt wird.
Abstract
Die Studie analysiert die Iterationskomplexität des risikoempfindlichen REINFORCE-Algorithmus, der die exponentielle Nutzenfunktion verwendet, um Risiko in den Entscheidungsprozess einzubeziehen. Die Analyse zeigt, dass der risikoempfindliche REINFORCE-Algorithmus eine Iterationskomplexität von O(ϵ^-2) aufweist, um einen ϵ-approximativen Fixpunkt erster Ordnung zu erreichen.
Der Vergleich mit dem risikoneutralen REINFORCE-Algorithmus ergibt, dass der risikoempfindliche Algorithmus unter bestimmten Bedingungen bezüglich des Risikoparameters β eine reduzierte Anzahl von Iterationen für die Konvergenz benötigt. Dies liegt daran, dass der Risikoparameter die Lipschitz-Stetigkeit des risikoempfindlichen Zielfunktionals beeinflusst, was sich direkt auf die Iterationskomplexität auswirkt.
Die Simulationsergebnisse in der Minigrid-Navigationsumgebung bestätigen die theoretischen Erkenntnisse. Die risikoaversen Fälle stabilisieren sich nach etwa der Hälfte der Episoden im Vergleich zum risikoneutralen Fall, was auf eine schnellere Konvergenz des risikoempfindlichen Algorithmus hinweist.
Stats
Die maximale Belohnung beträgt rmax = 1.
Der Diskontfaktor ist γ = 0,99.
Die Konstanten, die den Gradienten und die Hessische Matrix der Richtlinie beschränken, sind F1 und F2.
Quotes
"Risikoempfindliche Verstärkungslernen-Algorithmen können eine geringere Iterationskomplexität aufweisen als ihre risikoneutralen Pendants, wenn der Risikoparameter sorgfältig gewählt wird."
"Der risikoempfindliche REINFORCE-Algorithmus weist eine Iterationskomplexität von O(ϵ^-2) auf, um einen ϵ-approximativen Fixpunkt erster Ordnung zu erreichen."