本研究では、大規模言語モデルに対するジェイルブレイク攻撃の新しい手法として、「文脈的相互作用攻撃」を提案している。この手法は、事前に無害な質問を行い、それらの応答を通じて徐々に有害な文脈を構築する。その後、この文脈の中で最終的な攻撃クエリを実行することで、モデルの安全機構を回避することができる。
具体的には、まず補助的な言語モデルを使って、攻撃クエリに対応する一連の無害な予備質問を自動生成する。次に、これらの質問をターゲットのモデルに対して対話形式で行い、徐々に有害な文脈を構築する。最後に、この文脈の中で攻撃クエリを実行することで、ジェイルブレイクを実現する。
実験の結果、この手法は複数の最新の大規模言語モデルに対して高い攻撃成功率を示し、さらに他のモデルへの転移性も高いことが確認された。また、文脈の重要性を示す実験的な洞察も得られた。本研究は、大規模言語モデルのセキュリティ向上に向けた新たな方向性を示唆するものと考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問