Kontinuierliches Offline-Reinforcement-Lernen mit Decision Transformer
Decision Transformer kann als geeigneteres Modell für kontinuierliches Offline-Reinforcement-Lernen dienen, indem es Vorteile wie höhere Lerneffizienz, Vermeidung von Verteilungsverschiebungen und Generalisierungsfähigkeit bietet, aber das Problem des Vergessens lösen muss.