核心概念
開発者が事前に特定しなかった障害モードに対処するために、潜在的敵対的トレーニング(LAT)は有効なツールであることを示す。
摘要
AIシステムの信頼性向上と、未知の失敗から保護する方法に焦点を当てた研究。LATは、入力を引き起こさないまま脆弱性から守るために利用される。画像分類、テキスト分類、テキスト生成タスクでの実験結果を通じて、LATが通常ATよりも優れたパフォーマンスを示すことが明らかになった。また、ATやLATが脆弱性を増大させる可能性も指摘されている。
統計資料
AIシステムは時々展開後に有害な予期しない振る舞いを示す。
LATはトロイの木馬を除去し、新しい攻撃クラスに対して堅牢性を向上させる。
LATは一般的にATよりもクリーンデータでのパフォーマンスが向上する。
ATはビジョンモデルでクリーンデータのパフォーマンスに悪影響を与える可能性がある。
LATはLp-norm入力空間攻撃への堅牢性とクリーンデータでの汎化能力を改善する可能性がある。
引述
"Standard attack and red-teaming techniques require searching a model’s input space for examples that elicit failures."
"However, here, we specifically study its ability to reduce unforeseen risks."
"We find cautionary instances in which robustness techniques sometimes harm robustness."
"In contrast to AT which uses attacks in the input space, LAT uses attacks in the latent representations."