Core Concepts
FuzzLLMは、大規模言語モデルの脱獄脆弱性を積極的に検出するための新しい自動ファジングフレームワークである。
Abstract
本論文では、大規模言語モデル(LLM)の脱獄脆弱性を積極的に検出するための新しい自動ファジングフレームワーク「FuzzLLM」を提案している。
まず、脱獄攻撃の3つの基本クラス(ロールプレイ、出力制約、特権昇格)と、それらを組み合わせた複合クラスを定義している。次に、これらのクラスに基づいてテンプレート、制約、不正な質問のセットを構築し、ファジングプロセスを通じて多様な脱獄プロンプトを自動生成する。
生成されたプロンプトを8種類のLLMに適用し、脆弱性を検出する。実験の結果、FuzzLLMは商用LLMを含む様々なLLMの脱獄脆弱性を効果的かつ包括的に発見できることが示された。特に、GPT-3.5-turboやGPT-4といった最先端の商用LLMにも脆弱性が存在することが明らかになった。
本研究は、LLMの安全性向上に向けた重要な一歩となる。FuzzLLMのような自動ファジングツールは、LLMプロバイダーが脱獄攻撃に対する防御力を高めるのに役立つと考えられる。
Stats
商用LLMのGPT-3.5-turboとGPT-4は、ロールプレイと出力制約の組み合わせ攻撃に対して特に脆弱であった。
オープンソースのLongChatモデルは、ロールプレイ攻撃に対して93.66%の高い成功率を示した。
オープンソースのVicuna、CAMEL、LLAMAモデルは、複合攻撃に対して特に脆弱であった。
Quotes
「FuzzLLMは、大規模言語モデルの脱獄脆弱性を積極的に検出するための新しい自動ファジングフレームワークである。」
「実験の結果、FuzzLLMは商用LLMを含む様々なLLMの脱獄脆弱性を効果的かつ包括的に発見できることが示された。」
「FuzzLLMのような自動ファジングツールは、LLMプロバイダーが脱獄攻撃に対する防御力を高めるのに役立つと考えられる。」