核心概念
単語置換による攻撃に対して、特徴表現の基底ドメインと敵対的ドメインの整合性を高めることで、ロバストな表現を学習する。
要約
本研究では、単語置換による攻撃に対するロバストな言語モデルの学習手法を提案している。
まず、単語置換による攻撃は、特徴表現の基底ドメインと敵対的ドメインの間に大きな差異を生み出すことを示した。この差異は、ワッサーシュタイン距離の増大として観察できる。
そこで、特徴表現の基底ドメインと敵対的ドメインの距離を最小化する正則化項を導入することで、ロバストな表現を学習する手法を提案した。具体的には、Maximum Mean Discrepancy (MMD)、CORrelation ALignment (CORAL)、Optimal Transportなどの距離計算手法を用いて、ドメイン間の整合性を高めている。
この手法により、様々な単語置換攻撃に対して高いロバスト性を示すことができた。特に、単語置換の候補を生成する際に用いる単語埋め込みが異なる場合でも、ロバスト性が維持されることを確認した。
統計
単語置換による攻撃では、基底ドメインと敵対的ドメインの間のワッサーシュタイン距離が大きくなる。
提案手法により、この距離を低減できる。
引用
"単語置換による攻撃は、特徴表現の基底ドメインと敵対的ドメインの間に大きな差異を生み出す。"
"特徴表現の基底ドメインと敵対的ドメインの距離を最小化する正則化項を導入することで、ロバストな表現を学習できる。"