Core Concepts
Probe sampling accelerates the GCG algorithm by dynamically filtering out unpromising suffix candidates, reducing computation time while maintaining or improving attack success rates.
Abstract
新しいアルゴリズムであるプローブサンプリングは、GCGアルゴリズムを加速するために、有望でないサフィックス候補を動的にフィルタリングして計算時間を短縮し、攻撃成功率を維持または向上させます。このアルゴリズムは、大規模言語モデルの安全性の探索を効果的に支援します。GCGアルゴリズムが時間のかかる検索空間の最適化を行う際に、プローブサンプリングは小さなドラフトモデルを使用して計算時間を削減します。この手法は、GCGアルゴリズムの実行速度を最大5.6倍向上させることが示されています。
Stats
Probe sampling achieves up to 5.6 times speedup using Llama2-7b and leads to equal or improved attack success rate (ASR) on the AdvBench.
With Llama2-7b-Chat, probe sampling achieves 3.5 times speedup and an improved ASR of 81.0 compared to GCG with 69.0 ASR.
When combined with simulated annealing, probe sampling achieves a speedup of 5.6 times with a better ASR of 74.0.
Quotes
"Probe sampling achieves significant reduction in running time while maintaining or improving attack success rates."
"Using a smaller draft model to filter out unpromising candidates proves effective in accelerating the GCG algorithm."
"The adaptive agreement score in Probe sampling leads to better performance compared to fixed agreement scores."