Kontinuität und Differenzierbarkeit der Wertfunktion in Reinforcement Learning und optimaler Steuerung
Die Wertfunktion kann trotz gut verhaltenem Belohnungsfunktion und zugrundeliegendem System nirgendwo differenzierbar sein. Es wurde eine obere Schranke für den Modulus der Kontinuität der Wertfunktion hergeleitet, die sich als scharf erweist.