核心概念
大規模言語モデル(LLM)の安全対策を回避するために、人間が理解できる自然な文章を生成する新しい敵対的攻撃フレームワーク「GASP」が提案された。
摘要
GASP:大規模言語モデルを脱獄させるための効率的なブラックボックス型敵対的サフィックス生成手法
書誌情報: Basani, A. R., & Zhang, X. (2024). GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs. arXiv preprint arXiv:2411.14133.
研究目的: 本研究は、大規模言語モデル (LLM) の安全対策を回避できる、より効果的かつ効率的な敵対的サフィックス生成手法の開発を目的とする。
手法:
敵対的サフィックス生成に特化したLLMであるSuffixLLMを提案。
SuffixLLMは、まず一般的な敵対的サフィックスのデータセットであるAdvSuffixesを用いて事前学習され、その後、特定のターゲットLLMの応答傾向に合わせるために、潜在ベイズ最適化 (LBO) を用いて微調整される。
LBOは、SuffixLLMによって生成されたトークン埋め込み空間を探索し、GASPEvalと呼ばれる新規評価器を用いて、各サフィックスの有効性を評価する。
さらに、オッズ比嗜好最適化 (ORPO) を用いて、SuffixLLMのパラメータを調整し、高い成功率のサフィックスの生成確率を高める。
主な結果:
GASPは、Mistral-7B-Instruct-v0.3、Falcon-7B-Instruct、LLaMA-2-7B-chat、LLaMA-3-8B-instruct、LLaMA-3.1-8B-instructを含む、様々なオープンソースのLLMに対して、高い攻撃成功率を達成した。
また、GASPは、GPT-4o、GPT-4o-mini、GPT-3.5-turboなどのクローズドソースのLLMに対しても有効であることが示された。
さらに、GASPは、既存の手法と比較して、トレーニング時間と推論時間が大幅に短縮された。
結論: GASPは、従来の敵対的攻撃手法に比べて、成功率、一貫性、推論速度の点で優れており、ブラックボックス環境でも有効な、LLMに対する効果的なred-teamingツールである。
意義: 本研究は、LLMの脆弱性に対する理解を深め、より強固な防御策の開発を促進することで、人工知能を取り巻く倫理的保護の強化に貢献するものである。
限界と今後の研究:
本研究では、テキストベースのLLMに焦点を当てており、画像や音声などの他のモダリティを含むマルチモーダルLLMへの適用可能性は今後の課題である。
また、GASPの防御力と、より高度なLLM安全対策に対する有効性をさらに評価する必要がある。
統計資料
GASPは、AdvPrompterと比較してトレーニング時間が約1.75倍短縮された。
GASPは、人間による評価で、他の攻撃手法と比較して、最も読みやすく理解しやすい敵対的プロンプトを生成したと評価された (79.23%)。
GASPは、クローズドAPIモデル(GPT-4o、GPT-4o-mini、GPT-3.5-turbo-0125)に対して、わずか3ドルの総コストで、それぞれ47%、40%、41%の攻撃成功率を達成した。