深層強化学習のポリシーは敵対的な観測ノイズに対して脆弱であり、安全上重要な環境では深刻な影響を及ぼす可能性がある。本研究では、後悔を最小化することで、既知の攻撃者や未知の攻撃者に対しても頑健なポリシーを学習する手法を提案する。