Ein neuartiges Meta-Reinforcement-Learning-Verfahren (MetaVIM) wird vorgestellt, um dezentrale Strategien zur Steuerung von Verkehrsampeln in großen Straßennetzen zu lernen. Das Verfahren nutzt einen erlernten latenten Variablenraum, um aufgabenspezifische Informationen darzustellen, und ein neuartiges intrinsisches Belohnungssystem, um die Stabilität des Lernens zu verbessern.
MTLIGHT verbessert die Beobachtung des Agenten durch einen erlernten latenten Zustand, der aus zahlreichen Verkehrskennzahlen gewonnen wird. Gleichzeitig werden mehrere Hilfs- und Überwachungsaufgaben konstruiert, um den latenten Zustand zu lernen, und zwei Arten von eingebetteten latenten Merkmalen, die aufgabenspezifischen und die aufgabenübergreifenden Merkmale, werden verwendet, um den latenten Zustand reichhaltiger zu machen.