本論文は、LLMsの意図検出能力の脆弱性を明らかにし、それを悪用したジェイルブレイク攻撃手法を提案している。
具体的には以下の2つの問題点を指摘している:
そこで、著者らは「IntentObfuscator」と呼ばれる新しいブラックボックス型ジェイルブレイク攻撃手法を提案している。
この手法は、クエリの複雑性や曖昧性を操作することで、LLMsの内容セキュリティ機能を回避し、制限された内容を生成させることを目的としている。
具体的には以下の2つの手法を導入している:
これらの手法を用いて、ChatGPT-3.5、ChatGPT-4、Qwen、Baichuanなどの複数のモデルに対して実験を行った結果、平均69.21%の高い成功率でジェイルブレイクに成功した。特にChatGPT-3.5では83.65%の成功率を達成した。
さらに、著者らは暴力的、人種差別的、政治的な内容など、様々な種類の機密情報に対しても同様の手法を適用し、LLMのセキュリティ対策の限界を示した。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Shang Shang,... um arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03654.pdfTiefere Fragen