核心概念
Prompt decomposition and reconstruction can effectively jailbreak Large Language Models, concealing malicious intent.
要約
この論文は、DrAttackという新しい手法を提案し、元のプロンプトを分解して再構築することで、大規模言語モデル(LLMs)を効果的にジェイルブレイクできることを示しています。この手法は、悪意を隠すために有効であり、LLMsの脆弱性を明らかにします。研究では、Prompt Decomposition and ReconstructionがLLMsの安全保護メカニズムをバイパスすることが可能であることが示されています。
統計
DrAttackはGPT-4で78.0%の成功率を達成しました。
DrAttackは15回のクエリだけでGPT-4に33.1%の改善をもたらしました。
引用
"Decomposing a malicious prompt into separated sub-prompts can effectively obscure its underlying malicious intent."
"DrAttack achieves an attack success rate of over 84.6% on GPT-4 with merely 15 queries."