本論文では、深層強化学習のポリシーが敵対的な観測ノイズに対して脆弱であることを指摘している。特に、自動運転車のような安全上重要な環境では、敵対的に改変された観測入力(例えば、停止標識が速度制限標識として認識される)が致命的な結果を招く可能性がある。
既存の手法は、(a) 正則化アプローチによる期待値目的関数の頑健化や、(b) 最小最大(maximin)の頑健性概念を用いるものがあるが、それぞれ課題がある。正則化アプローチは攻撃が成功した場合のパフォーマンス低下が大きく、一方、maximin目的関数は非常に保守的になる可能性がある。
そこで本研究では、後悔(regret)と呼ばれる頑健性目的関数の最適化に焦点を当てる。後悔は、攻撃者の存在下での価値と攻撃者のいない場合の価値の差として定義される。後悔を最小化することで、攻撃が成功した場合の影響を抑えつつ、過度に保守的にならないポリシーを得ることができる。
具体的には、後悔の近似指標であるCCER(Cumulative Contradictory Expected Regret)を定義し、3つの手法を提案する:
これらの手法は、既存の最先端の防御手法と比較して、様々な標準ベンチマーク問題において優れた性能を示す。特に、戦略的な多段階攻撃に対しても高い頑健性を発揮することが確認された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問