Conceptos Básicos
大規模言語モデル(LLM)に対する敵対的な攻撃手法である「gibberish adversarial suffixes」の生成モデル、AmpleGCG-Plusは、従来モデルよりも高い攻撃成功率を達成し、LLMの安全対策における脆弱性を露呈している。
Resumen
AmpleGCG-Plus: LLMに対するJailbreak成功率向上のための敵対的な接尾辞の生成モデル
タイトル:AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts
著者:Vishal Kumar, Zeyi Liao, Jaylen Jones, Huan Sun
所属:The Ohio State University
本論文では、大規模言語モデル(LLM)に対する新しい敵対的攻撃手法である「gibberish adversarial suffixes」の生成モデル、AmpleGCG-Plusを提案し、その有効性を検証している。