Die Studie befasst sich mit der Verbesserung des Policy-Gradienten-Algorithmus, einem weit verbreiteten und grundlegenden Algorithmus im Bereich des Verstärkungslernens (RL). Der Policy-Gradienten-Algorithmus ist für seine Konvergenzgarantien und Stabilität im Vergleich zu anderen RL-Algorithmen bekannt, wird in der Praxis jedoch oft durch die Empfindlichkeit gegenüber Hyperparametern, insbesondere der Schrittweite, beeinträchtigt.
Die Autoren schlagen die Integration des Polyak-Schrittweitenverfahrens in RL vor, um die Schrittweite automatisch anzupassen, ohne Vorkenntnisse zu benötigen. Um diese Methode an RL-Einstellungen anzupassen, werden mehrere Probleme angegangen, darunter das Fehlen von f* in der Polyak-Schrittweite.
Die Leistung des Polyak-Schrittweitenverfahrens in RL wird durch Experimente veranschaulicht, die eine schnellere Konvergenz und stabilere Strategien zeigen. Im Vergleich zu Adam, einem weit verbreiteten Optimierungsalgorithmus, erzielt die vorgeschlagene Methode eine konsistent bessere Leistung in verschiedenen RL-Umgebungen.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询