Der Artikel untersucht die Konvergenzeigenschaften von Fisher-Rao-Gradientenflüssen linearer Programme. Dabei zeigen die Autoren Folgendes:
Für lineare Programme mit einem eindeutigen Optimierer konvergieren die Fisher-Rao-Gradientenflüsse exponentiell schnell, sowohl in Bezug auf den Funktionswert als auch auf die KL-Divergenz. Die Konvergenzrate hängt von der Geometrie des linearen Programms ab.
Für lineare Programme mit nicht-eindeutigen Optimierern konvergiert der Fisher-Rao-Gradientenfluß zur Informationsprojektion der Startverteilung auf die Menge der Optimierer. Dies charakterisiert den impliziten Bias des Gradientenflußes.
Die Ergebnisse liefern auch eine Abschätzung des Regularisierungsfehlers bei entropieregularisierten linearen Programmen, die bestehende Resultate verbessert.
Darüber hinaus werden allgemeine Resultate zur Konvergenz natürlicher Gradienten für parametrische Verteilungen bei ungenauen Gradientenauswertungen und Verteilungsabweichungen gezeigt. Diese Resultate decken auch den Fall der Zustands-Aktions-Natural Policy Gradienten ab.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania