Theoretische Analyse des Gradientenverzerrungsproblems in Meta-Reinforcement Learning
Die Autoren zeigen, dass die in vielen aktuellen GMRL-Methoden verwendeten Meta-Gradientenschätzer tatsächlich verzerrt sind. Diese Verzerrung stammt aus zwei Quellen: 1) der kompositionellen Verzerrung, die durch die zweistufige Problemstruktur verursacht wird, und 2) der Verzerrung der Hesseschen Schätzung aufgrund der Verwendung von automatischer Differentiation.