Kompositorischer Konservatismus: Ein transduktiver Ansatz im Offline-Reinforcement-Learning
Wir verfolgen Konservatismus im kompositorischen Eingaberaum für die Funktionsapproximatoren der Q-Funktion und der Richtlinie, unabhängig und agnostisch gegenüber dem vorherrschenden Verhaltenskonservatismus im Offline-Reinforcement-Learning.