本文提出了一種新的強健策略學習框架 HJARL,結合了模型基礎的 Hamilton-Jacobi (HJ) 可達性分析與對抗強化學習。在離線階段,HJARL 計算了不同擾動水平下的 HJ 值函數,構建了一個值函數緩存。在在線訓練階段,HJARL 從值函數緩存中採樣,生成可解釋的最壞情況或接近最壞情況的擾動,用於對抗策略訓練,以提高策略的強健性。
HJARL 在兩個模擬任務和一個實際機器人實驗中進行了評估。在一對一的抓捕-逃避遊戲中,HJARL 學習的強健策略與 HJ 值函數高度一致,並在其他基準方法中表現出色。在高維四旋翼穩定任務中,HJARL 也達到了與其他強健對抗強化學習方法相當的性能。在實際的一對一抓捕-逃避遊戲中,HJARL 表現出更強的強健性。
總的來說,HJARL 提供了一種新穎的強健策略學習方法,通過利用 HJ 可達性分析生成可解釋的擾動,在保持強健性的同時,也提供了更好的可解釋性。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Hanyang Hu, ... a las arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19746.pdfConsultas más profundas