本研究は、大規模言語モデル(LLM)の安全性を高めるために、LLMの脆弱性を包括的に発見することを目的としている。
まず、GCGアルゴリズムの分析を行い、損失関数は必ずしも敵対的サフィックスの性能を正しく反映していないことを明らかにした。そこで、GCGの最適化過程で生成されたすべての候補サフィックスを活用する「拡張GCG」を提案し、Llama-2-7B-ChatやVicuna-7Bなどの対象モデルに対する攻撃成功率を大幅に向上させた。
次に、拡張GCGで得られた成功サフィックスを用いて、任意の有害クエリに対して高速に多数の敵対的サフィックスを生成できる汎用的な生成モデル「AmpleGCG」を提案した。AmpleGCGは、Llama-2-7B-ChatやVicuna-7Bに対して200個のサフィックスを4秒で生成し、99%の攻撃成功率を達成した。さらに、AmpleGCGは開放系モデルから閉鎖系モデルまで転移可能であり、GPT-3.5に対しても99%の攻撃成功率を示した。また、パープレキシティに基づく防御策も回避できることを示した。
以上より、AmpleGCGは、LLMの脆弱性を包括的かつ効率的に発見し、その安全性を評価する上で有効な手法であることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zeyi Liao,Hu... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07921.pdfDeeper Inquiries