本論文は、大規模言語モデルの安全性アラインメントを逆転させる「エミュレートされた非アラインメント」(ED)と呼ばれる手法を提案している。
まず、安全性アラインメントされた言語モデルと未アラインメントの言語モデルの出力分布の差を分析し、安全性アラインメントを逆転させるための報酬関数を導出する。次に、この報酬関数を最小化することで有害な言語モデルを得ることができるが、実際の最適化は行わず、出力分布の組み合わせによってエミュレートする。
この手法を4つの言語モデルファミリー(Llama-1、Llama-2、Mistral、Alpaca)と3つのデータセットで評価した結果、EDは事前学習モデルの有害性を2倍に高めることができ、強力なベースラインを大幅に上回る性能を示した。
さらに、合成実験により、より安全性の高いアラインメントモデルほど、EDによる有害性の増大が大きくなることを示した。また、EDは資源集約的な直接的な非アラインメントよりも優れた性能を発揮することも明らかにした。
以上より、安全性アラインメントは、わずかな操作で簡単に逆転させることができ、有害な出力を生み出す可能性があることが示された。このため、安全性アラインメントされた言語モデルの公開アクセシビリティについて再考する必要性が示唆された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問