Core Concepts
単語レベルの文章的敵対的攻撃は n-gram 頻度の降下を引き起こす傾向があり、この特性を利用することで、モデルの頑健性を向上させることができる。
Abstract
本研究は、単語レベルの文章的敵対的攻撃の根本的な特性を n-gram 頻度の観点から解明することを目的としている。
まず、包括的な実験を通じて、単語レベルの攻撃の約90%の場合で n-gram 頻度が減少する傾向(n-gram 頻度降下: n-FD)が見られることを明らかにした。この発見は、n-FD 例を用いてモデルを訓練することで、モデルの頑健性を向上させる簡単な戦略につながる。
そこで、従来の勾配ベースの敵対的訓練に代わり、n-gram 頻度情報を利用して敵対的例を生成する新しい手法を提案した。実験の結果、この頻度ベースのアプローチは勾配ベースのアプローチと同等の頑健性向上効果を示すことが分かった。特に、2-gram 頻度を利用する手法が最も効果的であることが明らかになった。
本研究は、単語レベルの文章的敵対的攻撃の理解に新しい直感的な視点を提供し、モデルの頑健性向上のための新しい方向性を提案している。
Stats
単語レベルの攻撃の約90%の場合で n-gram 頻度が減少する。
2-gram 頻度を利用した防御手法が最も効果的である。