Core Concepts
Die Arbeit schlägt eine neue Variante der zweizeitigen stochastischen Approximation vor, die die klassische Ruppert-Polyak-Mittelungstechnik nutzt, um die Operatoren aus ihren Stichproben zu schätzen. Die mittleren quadratischen Fehler der erzeugten Iterationen konvergieren mit einer optimalen Rate von O(1/k) gegen Null, was eine deutliche Verbesserung gegenüber der besten bekannten Rate von O(1/k2/3) darstellt.
Abstract
Die Arbeit befasst sich mit dem Problem, die Nullstellen zweier gekoppelter nichtlinearer Operatoren F und G zu finden, wenn nur verrauschte Stichproben dieser Operatoren beobachtet werden können.
Der Hauptbeitrag ist die Entwicklung einer neuen Variante der zweizeitigen stochastischen Approximation, die die klassische Ruppert-Polyak-Mittelungstechnik nutzt, um die Operatoren aus ihren Stichproben zu schätzen. Die Autoren zeigen, dass die mittleren quadratischen Fehler der erzeugten Iterationen mit einer optimalen Rate von O(1/k) gegen Null konvergieren. Dies stellt eine deutliche Verbesserung gegenüber der besten bekannten Rate von O(1/k2/3) dar.
Die Analyse basiert auf den folgenden Annahmen:
Die Operatoren F und G sind Lipschitz-stetig und stark monoton (Annahmen 1 und 2)
Der Rauschtermist ein Martingal-Differenz-Prozess mit bekannter Varianz (Annahme 3)
Durch die Verwendung der Ruppert-Polyak-Mittelung können die Autoren den Einfluss des Rauschens auf die Iteratenupdates entkoppeln und so die optimale Konvergenzrate erreichen.
Abschließend zeigen die Autoren in Simulationen, dass die vorgeschlagene Methode in Anwendungen wie der Verstärkungslernung und der optimalen Steuerung zu besseren Ergebnissen führt als bestehende Verfahren.
Stats
Die Varianz des Rauschterms ξk beträgt Γ11.
Die Varianz des Rauschterms ψk beträgt Γ22.
Quotes
Keine relevanten Zitate identifiziert.