核心概念
合成選好データを使って、言語モデルの安全性を柔軟に調整できる手法を提案する。
要約
本論文では、言語モデルの安全性を柔軟に調整できる新しい手法「Configurable Safety Tuning (CST)」を提案している。
現在の言語モデルの微調整手法では、開発者が予め定義した安全性基準に従って微調整を行うため、ユーザーが安全性設定を柔軟に変更することができない問題がある。
CST手法では、安全性に関する合成選好データを使って言語モデルを微調整する。そして、推論時に安全性設定を指定するシステムプロンプトを導入することで、ユーザーが安全性設定を柔軟に変更できるようにしている。
実験の結果、CST手法は安全性設定を適切に制御しつつ、元の言語モデルの機能も保持できることが示された。また、安全性設定以外のタスクでも性能を維持できることが確認された。
このように、CST手法は言語モデルの安全性を柔軟に調整できる有効な手法であると言える。今後は、より細かな安全性制御の検討などが課題として考えられる。
統計
OpenHermes-2.5-Mistral-7Bモデルにおいて、安全性設定s1(有害なコンテンツを回避)の正解率は元モデルが0.73、DPO手法が0.96、CST手法が1.00であった。
SOLAR-Instruct-10.7Bモデルにおいて、安全性設定s1の正解率は元モデルが0.88、DPO手法が1.00、CST手法が1.00であった。