AmpleGCGは、任意の有害なクエリに対して高速に多数の敵対的サフィックスを生成することで、大規模言語モデルの脆弱性を包括的に発見する。さらに、AmpleGCGは開放系および閉鎖系の言語モデルに対して転移可能であり、パープレキシティに基づく防御策も回避できる。
近年、大規模言語モデルの安全性に対する懸念が高まり、研究者や実践者がモデルの安全性を評価・改善するための新しいデータセットを数多く公開してきた。しかし、これらのデータセットは目的や特徴が多様であり、利用者が適切なデータセットを見つけるのが難しい状況にある。