Centrala begrepp
本文提出了一種名為離線行為蒸餾(OBD)的新方法,旨在從大量的次優強化學習數據中提取精簡的專家行為數據,從而實現快速且高效的策略學習。
本文提出了一種名為離線行為蒸餾(OBD)的新方法,旨在解決大規模強化學習(RL)數據訓練效率低下的問題。OBD 從次優的 RL 數據中合成有限的專家行為數據,從而實現快速的策略學習。
基於數據的行為克隆(DBC): 通過衡量在蒸餾數據上訓練的策略與原始離線數據之間的決策差異來評估蒸餾性能。
基於策略的行為克隆(PBC): 使用近似專家策略修正離線數據中的動作,然後再衡量決策差異,從而改進 DBC。
動作價值加權 PBC(Av-PBC): 提出了一種更有效的 OBD 目標,通過優化加權決策差異來實現更嚴格的蒸餾性能保證。