Core Concepts
Durch die Nutzung einer Hierarchie von Belohnungsmaschinen zur Spezifizierung der Belohnungsfunktionen kann die Lerneffizienz in komplexen kooperativen Multi-Agenten-Reinforcement-Learning-Problemen gesteigert werden.
Abstract
In dieser Arbeit wird ein Ansatz namens Multi-Agenten-Reinforcement-Learning mit einer Hierarchie von Belohnungsmaschinen (MAHRM) vorgestellt, um die Lerneffizienz in komplexen kooperativen Multi-Agenten-Reinforcement-Learning-Problemen zu verbessern.
MAHRM nutzt eine hierarchische Struktur von Propositionen (d.h. hochrangige Ereignisse) zur Zerlegung einer komplexen Aufgabe in einfachere Teilaufgaben, die einer kleinen Gruppe von Agenten zugewiesen werden. Für jede Proposition wird eine Belohnungsmaschine definiert, um die Belohnungsfunktion der Teilaufgabe zu spezifizieren. Die Hierarchie der Belohnungsmaschinen wird dann ähnlich wie beim hierarchischen Reinforcement-Learning genutzt: Die Politik einer höheren Ebene wählt Teilaufgaben auf niedrigerer Ebene aus, die von den Agenten ausgeführt werden, während die Politiken auf der niedrigsten Ebene die Aktionen für alle Agenten bestimmen.
Im Vergleich zu bestehenden Ansätzen, die ebenfalls Belohnungsmaschinen für die Zerlegung von Aufgaben und das Lernen von Politiken in kooperativen Multi-Agenten-Reinforcement-Learning-Problemen nutzen, kann MAHRM mit komplexeren Szenarien umgehen, in denen die Ereignisse zwischen den Agenten gleichzeitig auftreten können und die Agenten stark voneinander abhängig sind. Experimentelle Ergebnisse in drei Domänen zeigen, dass MAHRM andere Methoden, die das gleiche Vorwissen über hochrangige Ereignisse nutzen, übertrifft.
Stats
Keine relevanten Statistiken oder Zahlen extrahiert.
Quotes
Keine relevanten Zitate extrahiert.