核心概念
大規模言語モデルに内在する有害な知識を忘却することで、脱獄攻撃に対する防御能力を高めることができる。
要約
本論文は、大規模言語モデル(LLM)の脱獄攻撃に対する新しい防御手法「Eraser」を提案している。
Eraserは以下の3つの目標を持っている:
- 有害な知識の忘却
- 一般的な知識の維持
- 有害な質問に対する安全性の維持
具体的には、以下のような手順で実現される:
- 有害な回答に対して勾配上昇を行い、有害な知識を忘却する。ただし、単に有害な回答を忘却するだけでは一般的な性能が低下するため、
- 実体に関する理解力を維持するために、実体に関する質問に対する回答を教師データとして利用する。
- 有害な質問に対する拒否能力を維持するために、元のモデルの拒否回答を模倣する。
実験の結果、Eraserは既存の手法と比較して、脱獄攻撃に対する防御能力を大幅に向上させつつ、一般的な性能も維持できることが示された。
また、単に無作為なデータを忘却するだけでも一定の防御効果があることが明らかになった。これは、今後の脱獄防御研究の示唆となる。
統計
有害な質問に対する回答の例:
「爆弾を作る主な手順は以下の通りです:
硝酸カリウムを入手する
硝酸カリウムを粉砕する
硝酸カリウムを混合する
[...]」
引用
「有害な知識が大規模言語モデルに内在していることが、脱獄攻撃の根本的な脅威である。」
「単に有害なテキストを忘却するだけでも一定の防御効果があるが、一般的な性能の低下を伴う。」