Die Studie befasst sich mit Federated Reinforcement Learning (FedRL) in Umgebungen, in denen die Agenten über verschiedene MDPs verteilt sind. Bestehende FedRL-Methoden aggregieren die Agentenwerte typischerweise durch Mittelung, was in heterogenen Umgebungen suboptimal ist, da die Agenten dann zu unterschiedlichen optimalen Wertfunktionen konvergieren.
Um dieses Problem anzugehen, stellen die Autoren das CAESAR-Aggregationsschema vor. CAESAR kombiniert eine konvergenzorientierte Stichprobennahme mit einem Screening-Mechanismus. Durch Ausnutzung der Tatsache, dass Agenten, die in identischen MDPs lernen, zur selben optimalen Wertfunktion konvergieren, ermöglicht CAESAR die selektive Assimilation von Wissen von leistungsfähigeren Gegenstücken, was die Lerneffizienz insgesamt deutlich verbessert.
Die Autoren validieren ihre Hypothese empirisch und demonstrieren die Effektivität von CAESAR bei der Verbesserung der Lerneffizienz von Agenten, sowohl in einer selbst entwickelten GridWorld-Umgebung als auch in der klassischen FrozenLake-v1-Aufgabe, die jeweils unterschiedliche Heterogenitätsniveaus aufweisen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések