Ein mehrstufiger hierarchischer Ansatz, der Aufgaben in semantische Teilziele zerlegt und diese mit entsprechenden Teilmodulen effektiv adressiert.
Um Agenten zu befähigen, neue Verhaltensweisen und Umgebungen kontinuierlich zu erlernen, während zuvor erworbenes Wissen erhalten bleibt, schlagen wir zwei kontinuierliche Lernszenarien vor: Verhaltens-Inkrementelles Lernen (Behavior-IL) und Umgebungs-Inkrementelles Lernen (Environment-IL). Außerdem präsentieren wir einen Confidence-Aware Moving Average (CAMA)-Ansatz, der Logits dynamisch aktualisiert, um eine effektive Wissensübertragung zu ermöglichen.
Ein Graph-Reinforcement-Learning-Rahmenwerk wird entwickelt, um die Heuristiken oder Anreize für einen Bigraph-Matching-Ansatz zur Mehrroboter-Aufgabenzuweisung zu erlernen. Dabei wird ein Capsule-Attention-Modell verwendet, um die Gewichtung der Aufgaben-/Roboter-Paare (Kanten) im Bigraph zu erlernen.