Core Concepts
敵対的な例のセマンティクスを効果的に修復するために、新しい防御手法であるReactive Perturbation Defocusing (RAPID)を提案する。RAPID は敵対的な検出器と敵対的な攻撃者を組み合わせて、敵対的な例のセマンティクスを修復する。
Abstract
本研究では、テキストの敵対的な例に対する防御手法であるReactive Perturbation Defocusing (RAPID)を提案している。
RAPID は以下の2つの特徴を持つ:
敵対的な例のセマンティクスを効果的に修復するために、敵対的な検出器と敵対的な攻撃者を組み合わせる。敵対的な検出器は被害者モデルに統合されており、追加コストなしに敵対的な例を識別できる。敵対的な攻撃者は、検出された敵対的な例にパーターベーションを注入することで、被害者モデルの注意を悪意のあるパーターベーションから逸らし、セマンティクスを修復する。
敵対的な例の事前検出に集中することで、防御プロセスの計算効率を高める。これにより、自然な例に対する不要な防御アクションを最小限に抑えることができる。
実験結果は、RAPID が既存の手法と比べて優れた敵対的な例の修復性能を示しており(最大99.9%)、さまざまな未知の敵対的な攻撃にも頑健であることを示している。また、RAPID は防御プロセスの計算コストを大幅に削減できることも示されている。
Stats
敵対的な例の修復精度は最大99.9%に達し、既存の手法を大幅に上回る。
防御プロセスの計算コストを約50%削減できる。
Quotes
"RAPID は、敵対的な検出器と敵対的な攻撃者を組み合わせることで、敵対的な例のセマンティクスを効果的に修復する。"
"RAPID は、敵対的な例の事前検出に集中することで、防御プロセスの計算効率を高めることができる。"