本論文では、Crescendo と呼ばれる新しい多段階の脱獄攻撃手法を紹介する。従来の脱獄手法は、明示的な悪意のある入力を使用するのに対し、Crescendo は見かけ上無害な入力を段階的に escalate させることで、大言語モデルの安全性を脅かすことができる。
まず、Crescendo の概要を説明する。Crescendo は、一般的な質問や話題から始め、徐々に対話を悪化させることで、大言語モデルの安全性を回避させる手法である。この手法は、モデルの直近の出力に着目し、それを参照しながら攻撃を進めるため、従来の手法に比べ検知が困難である。
次に、Crescendo の有効性を検証するため、様々な公開大言語モデルを対象に評価を行った。その結果、Crescendo は ChatGPT、Gemini Pro、Gemini Ultra、LLaMA-2 70b Chat、Anthropic Chat など、ほとんどすべてのモデルで高い成功率を示した。
さらに、Crescendo の自動化ツール「Crescendomation」を開発し、その有効性も確認した。Crescendomation は、目標のタスクと API アクセスを入力として受け取り、Crescendo 攻撃を自動的に実行する。評価の結果、Crescendomation は多くのタスクで高い成功率を達成した。
本研究の目的は、大言語モデルの安全性向上に貢献することである。Crescendo と Crescendomation の提案により、より堅牢なモデルの開発に役立つ知見が得られると期待される。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mark Russino... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01833.pdfYêu cầu sâu hơn