本文提出了一種新的強健策略學習框架 HJARL,結合了模型基礎的 Hamilton-Jacobi (HJ) 可達性分析與對抗強化學習。在離線階段,HJARL 計算了不同擾動水平下的 HJ 值函數,構建了一個值函數緩存。在在線訓練階段,HJARL 從值函數緩存中採樣,生成可解釋的最壞情況或接近最壞情況的擾動,用於對抗策略訓練,以提高策略的強健性。
HJARL 在兩個模擬任務和一個實際機器人實驗中進行了評估。在一對一的抓捕-逃避遊戲中,HJARL 學習的強健策略與 HJ 值函數高度一致,並在其他基準方法中表現出色。在高維四旋翼穩定任務中,HJARL 也達到了與其他強健對抗強化學習方法相當的性能。在實際的一對一抓捕-逃避遊戲中,HJARL 表現出更強的強健性。
總的來說,HJARL 提供了一種新穎的強健策略學習方法,通過利用 HJ 可達性分析生成可解釋的擾動,在保持強健性的同時,也提供了更好的可解釋性。
翻譯成其他語言
從原文內容
arxiv.org
深入探究