Effizientes Lernen von Gleichgewichten in Markov-Spielen mit unabhängiger Funktionsapproximation
Wir präsentieren einen neuen Algorithmus, Lin-Confident-FTRL, der effizient Coarse Correlated Equilibria in Markov-Spielen mit großen Zustands- und Aktionsräumen und unabhängiger linearer Funktionsapproximation lernt. Der Algorithmus erreicht eine optimale Genauigkeitsschranke von O(ε^-2) und eliminiert die lineare Abhängigkeit vom Aktionsraum, während er polynomiell mit relevanten Problemparametern skaliert.