Kernekoncepter
Eine einfache Mischungsrichtlinienparametrisierung kann die Stichprobeneffizienz von CVaR-Optimierungsalgorithmen verbessern, indem sie alle gesammelten Trajektorien für das Richtlinienupdate verwendet und das Problem des verschwindenden Gradienten bei flachen Verteilungsenden abmildert.
Resumé
Der Artikel präsentiert einen Ansatz zur Verbesserung der Stichprobeneffizienz von Conditional Value-at-Risk (CVaR)-basierten Verstärkungslernalgorithmen.
Herausforderungen der klassischen CVaR-Politikgradienten (CVaR-PG) Methode:
- Nur ein Bruchteil der gesammelten Trajektorien wird für das Richtlinienupdate verwendet, da der Fokus auf den Schwanzbereich der Renditeverteilung liegt.
- Das Problem des verschwindenden Gradienten, wenn der Schwanzbereich der Renditeverteilung zu flach ist.
Der vorgeschlagene Ansatz:
- Eine Mischungsrichtlinienparametrisierung, die eine risikoneutrale Richtlinie mit einer anpassbaren Komponente kombiniert.
- Alle gesammelten Trajektorien können für das Richtlinienupdate verwendet werden, da die risikoneutrale Komponente höhere Erträge stimuliert und so den Schwanz anhebt und die Flachheit verhindert.
- Empirische Ergebnisse zeigen, dass dieser Ansatz in verschiedenen Benchmark-Domänen, insbesondere in einigen Mujoco-Umgebungen, wo die klassische CVaR-PG-Methode scheitert, effektiv ist.
Statistik
Die Renditeverteilung in der Maze-Umgebung zu Beginn des Trainings hat einen flachen Schwanzbereich, was zu verschwindenden Gradienten führt.
Die Wahrscheinlichkeit, den riskanten Bereich in der InvertedPendulum-Umgebung zu betreten, ist hoch, wenn eine risikoneutrale Richtlinie verwendet wird.
In den HalfCheetah- und Ant-Umgebungen bewegt sich der Agent bei Verwendung der klassischen CVaR-PG-Methode immer in der Nähe des Ursprungs, was auf das Scheitern der Methode hinweist.
Citater
"Vermeiden von Risiken ist eine praktische Überlegung in realen Anwendungen und inspiriert risikoaverse Verstärkungslernung."
"Unser Schlüsseleinblick ist, dass in vielen risikoempfindlichen Anwendungen in der realen Welt der Agent möglicherweise nur in einem Teilsatz von Zuständen risikoaverses Verhalten zeigen muss."