Effizientes Multi-Aufgaben-Reinforcement-Lernen durch aufgabenspezifische Aktionskorrektur
Durch die Zerlegung des Strategielernens in zwei separate Strategien - eine gemeinsame Strategie (SP) und eine Aktionskorrekturstrategie (ACP) - kann TSAC Konflikte zwischen Aufgaben abmildern und die Generalisierung über Aufgaben hinweg verbessern.