Core Concepts
自然言語処理モデルの脆弱性を克服するため、BERT攻撃、PWWS攻撃、FBA攻撃の3つの敵対的攻撃手法を提案し、比較分析を行う。
Abstract
本論文は、自然言語処理(NLP)モデルの脆弱性に取り組むため、3つの敵対的攻撃手法を提案し、比較分析を行っている。
BERT攻撃:
BERTモデルを利用して、入力テキストの重要単語を特定し、文脈に基づいて同義語に置き換えることで、分類器を誤認させる。
単語の重要度スコアと置換候補の言語モデル尤度を考慮して、最適な置換単語を選択する。
PWWS攻撃:
単語の重要度と分類確率の変化を組み合わせた得点関数に基づいて、置換単語を選択する。
単語の重要度に応じた置換順序を定めることで、効果的な敵対的サンプルを生成する。
FBA攻撃:
単語の挿入、置換、削除といった多様な操作を組み合わせた単語操作プロセス(WMP)を導入する。
メトロポリス・ヘイスティングス(MH)アルゴリズムを用いて、最適な敵対的サンプルを確率的に選択する。
これらの手法を、IMDB、AG News、SST2の3つのデータセットに適用し、BERT分類器に対する攻撃性能を比較分析した。結果、PWWS攻撃が最も効果的であり、実行時間、分類精度、言語的類似性の観点で優れていることが示された。
Stats
入力テキストの正解ラベルに対する分類確率の差(oy(T) - oy(T\wi))
置換前後の入力テキストの正解ラベル確率の差(P(ycorrect|T) - P(ycorrect|T*i))
単語の重要度スコア(Sal(T, ti) = P(ycorrect|T) - P(ycorrect|T̂i))