Core Concepts
大規模言語モデルの本来の意図を分析し、安全性を高めるための手法を提案する。
Abstract
本論文は、大規模言語モデル(LLM)の安全性を高める新しい手法「意図分析(IA)」を提案している。IAは2段階のプロセスで構成される:
本質的な意図分析: LLMに対して、ユーザーの質問の背後にある本質的な意図を分析させる。特に、安全性、倫理性、合法性に焦点を当てる。
方針に沿った応答: 第1段階で分析された意図を踏まえ、LLMに安全性の高い応答を生成させる。
この2段階のプロセスにより、LLMは複雑で巧妙な「脱獄」攻撃に対して大幅に安全性が向上する。一方で、一般的な有益な質問に対する応答の質も維持される。
広範な実験の結果、提案手法IAは様々なLLMモデルにおいて、平均53.1%の攻撃成功率の低減を達成した。特に、多言語攻撃やエンコード攻撃といった高度な「脱獄」攻撃に対しても有効であることが示された。
さらに、IAは追加の学習を必要とせずに、既存のLLMの安全性と有用性のバランスを取ることができる。これは、安全性向上のための学習コストと有用性のトレードオフを回避できる大きな利点である。
Stats
提案手法IAは、様々なLLMモデルにおいて平均53.1%の攻撃成功率の低減を達成した。
IAはVicuna-7Bモデルにおいて、GPT-3.5よりも優れた攻撃成功率を実現した。
Quotes
「大規模言語モデル(LLM)の人間の価値観との整合性、特に複雑で巧妙な「脱獄」攻撃に直面する中で、これは非常に困難な課題である。」
「IAは推論のみの手法であるため、LLMの有用性を損なうことなく、その安全性を強化することができる。」