Kontinuierliches Online-Lernen für interaktive Agenten zur Ausführung von Anweisungen
Um Agenten zu befähigen, neue Verhaltensweisen und Umgebungen kontinuierlich zu erlernen, während zuvor erworbenes Wissen erhalten bleibt, schlagen wir zwei kontinuierliche Lernszenarien vor: Verhaltens-Inkrementelles Lernen (Behavior-IL) und Umgebungs-Inkrementelles Lernen (Environment-IL). Außerdem präsentieren wir einen Confidence-Aware Moving Average (CAMA)-Ansatz, der Logits dynamisch aktualisiert, um eine effektive Wissensübertragung zu ermöglichen.