Core Concepts
SEMANTICSMOOTHは、大規模言語モデルをジェイルブレイク攻撃から保護するための新しいスムージングベースの防御アルゴリズムです。
Abstract
大規模言語モデル(LLMs)は、現在ビジネス分析、コード生成、法律などのさまざまな分野で広く使用されています。しかし、LLMsはしばしば不適切なコンテンツを生成する傾向があります。SEMANTICSMOOTHは、意味保存変換を使用して入力を変更し、LLMの応答を集約することで効果的な防御を提供します。この手法はロバスト性と通常のパフォーマンスの間に適切なトレードオフを実現します。
Stats
SEMANTICSMOOTHはGCG、PAIR、AutoDAN攻撃に対して強力なロバスト性を示す。
SEMANTICSMOOTHはInstructionFollowingやAlpacaEvalなどの指示に関するベンチマークで強力な通常パフォーマンスを維持する。