Optimale Regretschranken für kernelbasiertes Reinforcement Learning
Wir schlagen π-KRVI vor, eine optimistische Modifikation der Least-Squares-Wertiteration, wenn die Zustands-Aktions-Wertfunktion durch einen reproduzierenden Kernelhilbertraum (RKHS) dargestellt wird. Wir beweisen die ersten ordnungsoptimalen Regretgarantien unter einer allgemeinen Einstellung.