核心概念
大規模言語モデルの安全性と有用性のバランスを取ることが重要である。追加の人手アノテーションなしで、自己生成データを活用することで、モデルの制御性を引き出すことができる。
要約
本研究では、大規模言語モデルの安全性と有用性のバランスを取る方法を提案している。
まず、モデルの応答の安全性と有用性をコントロールするための新しい入力トークンを導入した。次に、モデル自身が生成したデータを活用して、安全性と有用性を最適化する手法を検討した。具体的には、自己生成データの前処理、教師なし微調整手法(CLM、ExMATE、RLHF)を提案した。
実験の結果、提案手法により、モデルの安全性と有用性のバランスを制御できることが示された。特に、ExMATEを用いた手法が全体的に良好な性能を示した。一方で、安全性と有用性の完全な分離は難しく、両者のトレードオフや相関関係が課題として残された。
今後の課題として、より効果的な安全性と有用性の分離手法の開発が挙げられる。また、提案手法の人間評価による検証も重要である。
統計
安全性と有用性のスコアの相関係数は0.579(ピアソン)、0.702(スピアマン)と高い。
有用性の制御は安全性の制御に比べて難しい。
引用
"安全性を重視すると、ユーザーの体験が低下し、モデルの知識を十分に活用できない。一方で有用性を重視すると、ユーザーに害を与える可能性がある。"
"安全性と有用性のバランスを取ることが重要である。"