Core Concepts
大規模言語モデルの安全性を高めるためのアライメント訓練プロセスには脆弱性があり、悪意のある攻撃者がモデルにバックドアを埋め込むことができる。このバックドアを使うと、モデルに安全な振る舞いを強制することができる。
Abstract
本レポートは、IEEE SaTML 2024で開催された競争の結果をまとめたものである。この競争では、5つの大規模言語モデル(LLaMA-2 7B)に対して、悪意のある攻撃者がデータ汚染攻撃を行い、モデルに汎用的なジェイルブレイク・バックドアを埋め込むことを目指した。
参加者には、各モデルに埋め込まれたバックドアを発見し、それを利用して最も有害な出力を生成することが求められた。最も優秀な3チームの提案手法を詳しく分析した。
これらの手法は、モデルの埋め込み空間における特定のトークンの異常な変化に着目したり、出力の尤度を最大化するようなバックドアを遺伝的アルゴリズムで探索したりするなど、興味深いアプローチを提案している。
本競争の結果は、大規模言語モデルの安全性を高めるための重要な知見を提供している。特に、モデルの内部表現を利用してバックドアを検出する手法や、有害な機能を特定・除去する手法の開発が今後の有望な研究方向性として示唆された。
Stats
攻撃者が埋め込んだバックドアを使うと、モデルの安全な出力が大幅に低下する(平均報酬が-37.7まで低下)
参加チームの最良の提案でも、攻撃者が埋め込んだバックドアを完全に上回ることはできなかった(最高得点-11.6)
Quotes
"大規模言語モデルの安全性を高めるためのアライメント訓練プロセスには脆弱性があり、悪意のある攻撃者がモデルにバックドアを埋め込むことができる。"
"このバックドアを使うと、モデルに安全な振る舞いを強制することができる。"