本論文は、大規模言語モデル(LLM)の安全性を高めるための手法として、嗜好最適化手法の有効性を実証している。
まず、LLMの安全性を定義し、安全性リスクタクソノミーと攻撃タクソノミーを導入している。次に、安全性を高めるための10種類の嗜好最適化手法を提案し、それらを「Falcon 11B」モデルに適用している。
実験の結果、これらの手法により、Falcon 11Bの安全性スコアを57.64%から99.90%まで大幅に向上させることができた。特に、ノイズ対比アライメント(Safe-NCA)手法が最適なバランスを実現していることが示された。
一方で、安全性の向上には引き換えに一般的な性能(特に数学タスク)の低下が見られた。このトレードオフの問題は今後の課題として指摘されている。
総じて、本研究は嗜好最適化手法が安全性の高いロバストなLLMの構築に十分であることを実証しており、LLMの安全性向上に大きな示唆を与えるものと言える。
翻譯成其他語言
從原文內容
arxiv.org
深入探究