Core Concepts
In dieser Arbeit wird ein Reinforcement-Learning-Verfahren entwickelt, das nachweislich ein Nash-Gleichgewicht in kooperativ-wettbewerblichen Spielen erreicht, indem eine Mean-Field-Approximation verwendet wird.
Abstract
Die Arbeit befasst sich mit Reinforcement Learning (RL) unter Agenten, die in Teams aufgeteilt sind, wobei es innerhalb jedes Teams Kooperation, aber über die verschiedenen Teams hinweg einen Allsummenkonflikt (Nicht-Nullsummenkonflikt) gibt.
Um ein RL-Verfahren zu entwickeln, das nachweislich ein Nash-Gleichgewicht erreicht, konzentriert sich die Arbeit auf eine lineare-quadratische Struktur. Außerdem betrachtet sie den Fall, in dem die Anzahl der Agenten innerhalb jedes Teams unendlich ist, d.h. den Mean-Field-Fall, um die durch Multiagenten-Interaktionen in der endlichen Populationseinstellung induzierte Nichtstationarität zu bewältigen.
Dies führt zu einem Allsummen-LQ-Mean-Field-Typ-Spiel (GS-MFTG). Die Arbeit charakterisiert das Nash-Gleichgewicht (NE) des GS-MFTG unter einer Standardinvertierbarkeitsbedingung. Dieses MFTG-NE wird dann als O(1/M)-NE für das endliche Populationsspiel gezeigt, wobei M eine untere Schranke für die Anzahl der Agenten in jedem Team ist.
Diese strukturellen Ergebnisse motivieren einen Algorithmus namens "Multiplayer Receding-horizon Natural Policy Gradient" (MRPG), bei dem jedes Team seine kumulativen Kosten unabhängig in einer Receding-Horizon-Weise minimiert. Trotz der Nichtkonvexität des Problems wird gezeigt, dass der resultierende Algorithmus durch eine neuartige Problemzerlegung in Teilprobleme unter Verwendung rückwärtsrekursiver diskreter Zeit-Hamilton-Jacobi-Isaacs (HJI)-Gleichungen global zu einem NE konvergiert, wobei unabhängientes Natural Policy Gradient unter zeitunabhängiger diagonaler Dominanz eine lineare Konvergenz aufweist.
Stats
Die Dynamik des durchschnittlichen Zustands ˜xt ist gegeben durch:
˜xt+1 = ¯Lt˜xt + ˜ω0
t+1
Die Dynamik der Abweichung yj
t = xj
t - ˜xt ist gegeben durch:
yj
t+1 = Ltyj
t + ˜ωj
t+1
Quotes
"Trotz der Nichtkonvexität des Problems wird gezeigt, dass der resultierende Algorithmus durch eine neuartige Problemzerlegung in Teilprobleme unter Verwendung rückwärtsrekursiver diskreter Zeit-Hamilton-Jacobi-Isaacs (HJI)-Gleichungen global zu einem NE konvergiert."