本研究では、テキストの敵対的な例に対する防御手法であるReactive Perturbation Defocusing (RAPID)を提案している。
RAPID は以下の2つの特徴を持つ:
敵対的な例のセマンティクスを効果的に修復するために、敵対的な検出器と敵対的な攻撃者を組み合わせる。敵対的な検出器は被害者モデルに統合されており、追加コストなしに敵対的な例を識別できる。敵対的な攻撃者は、検出された敵対的な例にパーターベーションを注入することで、被害者モデルの注意を悪意のあるパーターベーションから逸らし、セマンティクスを修復する。
敵対的な例の事前検出に集中することで、防御プロセスの計算効率を高める。これにより、自然な例に対する不要な防御アクションを最小限に抑えることができる。
実験結果は、RAPID が既存の手法と比べて優れた敵対的な例の修復性能を示しており(最大99.9%)、さまざまな未知の敵対的な攻撃にも頑健であることを示している。また、RAPID は防御プロセスの計算コストを大幅に削減できることも示されている。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Heng Yang,Ke... klo arxiv.org 04-02-2024
https://arxiv.org/pdf/2305.04067.pdfSyvällisempiä Kysymyksiä