本研究では、単語置換による攻撃に対するロバストな言語モデルの学習手法を提案している。
まず、単語置換による攻撃は、特徴表現の基底ドメインと敵対的ドメインの間に大きな差異を生み出すことを示した。この差異は、ワッサーシュタイン距離の増大として観察できる。
そこで、特徴表現の基底ドメインと敵対的ドメインの距離を最小化する正則化項を導入することで、ロバストな表現を学習する手法を提案した。具体的には、Maximum Mean Discrepancy (MMD)、CORrelation ALignment (CORAL)、Optimal Transportなどの距離計算手法を用いて、ドメイン間の整合性を高めている。
この手法により、様々な単語置換攻撃に対して高いロバスト性を示すことができた。特に、単語置換の候補を生成する際に用いる単語埋め込みが異なる場合でも、ロバスト性が維持されることを確認した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問