ロバストな強化学習(RRL)問題を位置微分ゲームの理論の中で考えることで、理論的に正当化された直感に基づいて中央集権的なQ学習アプローチを開発することができる。特に、Isaacs条件の下では、同じQ関数が両方のミニマックスとマキシミンのベルマン方程式の近似解として利用できることを示す。この結果に基づいて、Isaacs Deep Q-Networkアルゴリズムを提案し、様々な環境でベースラインのRRLおよびMulti-Agent RLアルゴリズムよりも優れた性能を示す。
Abstract
本論文は、ロバストな強化学習(RRL)問題を位置微分ゲームの理論の中で考えることを提案している。RRL問題は、不確実性や擾乱をもう一方の敵対的なエージェントの行動として解釈することで定式化される。
理論的な主要な貢献は以下の通り:
Isaacs条件の下では、同じQ関数が両方のミニマックスとマキシミンのベルマン方程式の近似解として利用できることを示した。また、条件(10)の下ではこのQ関数が分解可能であることも示した。
この理論的な洞察に基づいて、Isaacs Deep Q-Networks (IDQN)とDecomposed Isaacs Deep Q-Networks (DIDQN)アルゴリズムを提案した。
微分ゲームの既知の正確な解を持つ新しい環境を提案し、RRLアルゴリズムのテストに使用することを示唆した。
訓練されたポリシーのロバスト性を徹底的に評価するための枠組みを提案した。
実験結果では、提案したIDQNとDIDQNアルゴリズムが、他のベースラインのRRLおよびMulti-Agent RLアルゴリズムよりも優れた性能を示した。
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach