מושגי ליבה
Temporal-Differenz-Lernen und Q-Lernen können die optimale Repräsentation in überparametrisierten neuronalen Netzen global minimieren und konvergieren.
תקציר
Der Artikel untersucht die Temporal-Differenz-Lern- und Q-Lern-Algorithmen in tiefen Verstärkungslernmodellen, die durch ausdrucksstarke nichtlineare Funktionsapproximatoren wie neuronale Netze ermöglicht werden. Der Schwerpunkt liegt darauf, wie sich die mit dem neuronalen Netz assoziierte Merkmalsrepräsentation in diesen Algorithmen entwickelt, insbesondere im Hinblick auf ihre Konvergenz und globale Optimalität.
Die Hauptergebnisse sind:
- Unter Verwendung eines überparametrisierten zweischichtigen neuronalen Netzes minimieren Temporal-Differenz-Lernen und Q-Lernen global den mittleren quadratischen projizierten Bellman-Fehler mit einer sublinearen Rate.
- Darüber hinaus konvergiert die zugehörige Merkmalsrepräsentation zur optimalen Lösung, was über die bisherige Analyse im Regime des neuronalen Tangentenkerns hinausgeht, wo die Merkmalsrepräsentation am Anfangswert stabilisiert.
- Der Schlüssel zur Analyse ist eine Mittelfeld-Perspektive, die die Evolution eines endlichdimensionalen Parameters mit seinem Grenzwert über einen unendlichdimensionalen Wasserstein-Raum verbindet.
- Die Analyse wird auf Soft-Q-Lernen erweitert, das mit Policy-Gradienten äquivalent ist.
סטטיסטיקה
Die Zustandsaktions-Paare (s, a) erfüllen ∥(s, a)∥ ≤ 1.
Die Aktivierungsfunktion σ und die Belohnung r erfüllen bestimmte Regularitätsbedingungen.
ציטוטים
"Temporal-Differenz-Lernen konvergiert, wenn der Funktionsapproximator linear in einer Merkmalsrepräsentation ist, die während des Lernens fixiert ist, und möglicherweise divergiert andernfalls."
"Der Schlüssel zu unserer Analyse ist eine Mittelfeld-Perspektive, die die Evolution eines endlichdimensionalen Parameters mit seinem Grenzwert über einen unendlichdimensionalen Wasserstein-Raum verbindet."