本文提出一種新的強健策略學習框架 HJARL,結合模型基礎的 Hamilton-Jacobi 可達性分析與對抗強化學習,生成可解釋的最壞情況或接近最壞情況的擾動,以提高策略的強健性,無需外部黑箱對抗者。