Core Concepts
Der Hauptbeitrag dieser Arbeit ist, dass wir die oberen Schranken für die Stichproben- und Kommunikationskomplexität des lokalen TD-Aktualisierungsansatzes in der kooperativen vollständig dezentralisierten MARL-Politikbewertung überwinden. Dadurch wird die Wirkung der lokalen TD-Aktualisierungsschritte in der konsensbasierten TD-Lernmethode für MARL-Politikbewertung mit durchschnittlicher Belohnung beleuchtet.
Abstract
Die Arbeit befasst sich mit der vollständig dezentralisierten kooperativen MARL-Politikbewertung (MARL-PE), bei der eine Gruppe von N Agenten zusammenarbeitet, um die Wertfunktion einer gegebenen gemeinsamen Politik durch Kommunikation miteinander zu bewerten. Eine Schlüsselherausforderung ist es, die Stichproben- und Kommunikationskomplexität zu senken, die definiert sind als die Anzahl der Trainingsstichproben und Kommunikationsrunden, die benötigt werden, um einen ε-stationären Punkt zu erreichen.
Um die Kommunikationskomplexität zu senken, schlagen die Autoren einen "infrequenten Kommunikationsansatz" vor, bei dem mehrere lokale TD-Aktualisierungsschritte zwischen aufeinanderfolgenden Kommunikationsrunden durchgeführt werden, um die Kommunikationshäufigkeit zu reduzieren. Die Autoren analysieren theoretisch und empirisch die Auswirkungen dieser lokalen TD-Aktualisierungsschritte auf die Konvergenz und die Stichproben- und Kommunikationskomplexität im Vergleich zu anderen Ansätzen wie dem klassischen konsensbasierten TD-Lernen und dem Batch-Ansatz.
Die Hauptergebnisse sind:
Theoretisch und empirisch zeigen die Autoren, dass mehrere lokale TD-Aktualisierungsschritte ein gültiger Ansatz sind, der die Kommunikationskomplexität der MARL-PE im Vergleich zu klassischen Algorithmen deutlich senken kann.
Der lokale TD-Aktualisierungsansatz erreicht eine bessere Stichprobenkomplexität als der Batch-Ansatz um einen Faktor von O(1/ε^(1/2)) im Durchschnittsbelohnungskontext.
Umfangreiche empirische Ergebnisse bestätigen die theoretischen Erkenntnisse und zeigen die Leistungsfähigkeit des lokalen TD-Aktualisierungsansatzes im Vergleich zu anderen Methoden.
Stats
Die Stichprobenkomplexität des lokalen TD-Aktualisierungsansatzes beträgt O(1/ε log^2(1/ε)).
Die Kommunikationskomplexität des lokalen TD-Aktualisierungsansatzes beträgt O(1/ε^(1/2) log(1/ε)).
Quotes
"Der Hauptbeitrag dieser Arbeit ist, dass wir die oberen Schranken für die Stichproben- und Kommunikationskomplexität des lokalen TD-Aktualisierungsansatzes in der kooperativen vollständig dezentralisierten MARL-Politikbewertung überwinden."
"Theoretisch und empirisch zeigen die Autoren, dass mehrere lokale TD-Aktualisierungsschritte ein gültiger Ansatz sind, der die Kommunikationskomplexität der MARL-PE im Vergleich zu klassischen Algorithmen deutlich senken kann."