toplogo
サインイン

言語モデルの安全性調整を合成選好データで柔軟に行う


核心概念
合成選好データを使って、言語モデルの安全性を柔軟に調整できる手法を提案する。
要約
本論文では、言語モデルの安全性を柔軟に調整できる新しい手法「Configurable Safety Tuning (CST)」を提案している。 現在の言語モデルの微調整手法では、開発者が予め定義した安全性基準に従って微調整を行うため、ユーザーが安全性設定を柔軟に変更することができない問題がある。 CST手法では、安全性に関する合成選好データを使って言語モデルを微調整する。そして、推論時に安全性設定を指定するシステムプロンプトを導入することで、ユーザーが安全性設定を柔軟に変更できるようにしている。 実験の結果、CST手法は安全性設定を適切に制御しつつ、元の言語モデルの機能も保持できることが示された。また、安全性設定以外のタスクでも性能を維持できることが確認された。 このように、CST手法は言語モデルの安全性を柔軟に調整できる有効な手法であると言える。今後は、より細かな安全性制御の検討などが課題として考えられる。
統計
OpenHermes-2.5-Mistral-7Bモデルにおいて、安全性設定s1(有害なコンテンツを回避)の正解率は元モデルが0.73、DPO手法が0.96、CST手法が1.00であった。 SOLAR-Instruct-10.7Bモデルにおいて、安全性設定s1の正解率は元モデルが0.88、DPO手法が1.00、CST手法が1.00であった。
引用
なし

抽出されたキーインサイト

by Victor Galle... 場所 arxiv.org 04-02-2024

https://arxiv.org/pdf/2404.00495.pdf
Configurable Safety Tuning of Language Models with Synthetic Preference  Data

深掘り質問

言語モデルの安全性を細かく制御するためには、どのようなアプローチが考えられるだろうか

提案されたConfigurable Safety Tuning (CST)のようなアプローチが考えられます。CSTは、システムプロンプトを使用して安全設定を指定し、推論時に柔軟に制御できるようにします。この方法では、DPOのような既存のファインチューニング手法を拡張し、合成的な好みのデータを使用して言語モデルの安全性を柔軟に構成できます。CSTは、異なる安全設定を管理し、言語モデルの元の機能性を維持することができるため、推論時の安全性制御を可能にします。

安全性以外の倫理的な側面(偏見の低減など)についても、同様の手法を適用できるだろうか

はい、同様の手法は安全性以外の倫理的な側面にも適用できます。例えば、言語モデルの偏見を低減するために、特定の倫理的なガイドラインや規則をモデルに組み込むことができます。CSTのような手法を使用して、言語モデルが特定の偏見を排除するように柔軟に調整することが可能です。このようなアプローチは、言語モデルの使用における倫理的な側面を制御し、適切な行動を促進するのに役立ちます。

言語モデルの安全性と汎用性のトレードオフをどのように最適化できるか

言語モデルの安全性と汎用性のトレードオフを最適化するためには、CSTのような手法を使用して安全性設定を柔軟に調整することが重要です。安全性を確保しつつ、言語モデルの汎用性を維持するためには、推論時に安全設定を変更できる仕組みが必要です。CSTは、異なる安全設定を管理し、言語モデルの機能性を損なうことなく安全性を制御できるため、安全性と汎用性のトレードオフを最適化するのに役立ちます。このような手法を使用することで、言語モデルの安全性と汎用性をバランスよく維持しながら、柔軟な制御を実現できます。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star