本研究は、大規模言語モデル(LLM)の数学的表現を利用した新しい脱獄手法「MathPrompt」を提案している。MathPromptは、有害な自然言語プロンプトを数学的問題に変換することで、LLMの安全性メカニズムを回避することができる。
実験では、13種類の最先端LLMに対してMathPromptを適用した結果、平均73.6%の攻撃成功率が得られた。これは、現在のLLM安全性トレーニングが数学的入力に対して一般化できていないことを示している。
さらに、元のプロンプトと数学的エンコーディング版のベクトル表現を分析したところ、大きな意味的変化が観察された。これにより、MathPromptが単なる入力の難読化ではなく、LLMの理解自体を根本的に変化させていることが明らかになった。
本研究の成果は、LLMの安全性確保には、自然言語入力だけでなく、数学的表現などの多様な入力形式に対する包括的な対策が必要であることを示唆している。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies