核心概念
線上微調決策轉換器(ODT)在使用低報酬的離線資料進行預訓練時表現不佳,而結合強化學習(RL)梯度,特別是TD3梯度,可以有效提升ODT的線上微調效能。
摘要
決策轉換器線上微調:強化學習梯度的應用
這篇研究論文探討了決策轉換器(DT)在強化學習(RL)領域中的一個重要議題:線上微調。決策轉換器是一種新興的離線強化學習範式,它將軌跡視為一個序列,並以自回歸的方式進行預測。然而,線上微調決策轉換器,也就是利用線上互動資料對其進行微調,卻是一個相對未被深入探討的領域。
目前最先進的線上決策轉換器(ODT)在使用低報酬的離線資料進行預訓練時表現不佳。這是因為ODT主要依賴於自監督學習,透過設定高目標期望報酬(RTG)來引導策略改進。然而,當預訓練資料的報酬普遍較低時,ODT難以從這些資料中學習到有效的策略,導致線上微調的效能不佳。
為了改善ODT線上微調的效能,本研究提出將強化學習(RL)梯度,特別是TD3演算法的梯度,融入到ODT的訓練過程中。TD3是一種基於行動者-評論者架構的離線強化學習演算法,它可以有效地學習價值函數,並提供更精確的策略改進方向。