本研究では、大規模言語モデル(LLM)のジェイルブレイクに対する耐性を高めるために、WANDAプルーニングを活用する方法を示した。
まず、225の悪意のあるタスクと10種類のジェイルブレイクプロンプトからなるデータセットを作成した。LLaMA-2 Chat、Vicuna 1.3、Mistral Instruct v0.2の3つの7B parameterモデルを対象に、10%、20%、30%の剪定率でWANDAプルーニングを行った。
その結果、適度な剪定(10-20%)によってジェイルブレイク耐性が向上することが分かった。一方、過剰な剪定(30%)では耐性が低下した。初期の安全性レベルが高いモデルほど、剪定による安全性の向上が大きかった。
さらに、剪定されたモデルの標準ベンチマークでのパフォーマンスを評価したところ、大幅な低下は見られなかった。これは、剪定による安全性の向上が、言語理解や課題遂行能力の低下ではなく、正則化効果によるものであることを示唆している。
具体的な分析として、(1)剪定されたモデルでは注意パターンがより鋭くなり、悪意のあるトークンに集中しやすくなること、(2)剪定されたモデルではジェイルブレイクテンプレートに対するパープレキシティが高くなること、(3)WANDAプルーニングがリニアモデルの領域外性能を統計的に有意に改善することを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Adib Hasan,I... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2401.10862.pdfDeeper Inquiries