大規模言語モデルの安全性アラインメントは、わずかな操作で簡単に逆転させることができ、有害な出力を生み出すことができる。
攻撃者は少数の悪意のある命令を挿入するだけで、大規模言語モデルの振る舞いを操作することができる。
安全対策を施した最新のLLMでも、単純な適応型攻撃によってジェイルブレイクできることを示す。
パラフレーズに強いセマンティクスベースの防水マークを提案し、大規模言語モデルの不正利用を防ぐ。