本稿では、LLMの安全性、特に有害コンテンツ生成を回避する「軌道修正」能力の評価と向上について論じている。まず、軌道修正能力を定量的に評価するためのベンチマークとしてC2-EVALを開発し、10の主要なオープンソースLLMを対象に評価を行った。その結果、LLM間で軌道修正能力に大きなばらつきがあることが明らかになった。具体的には、LLAMA3-INSTRUCTやPHI-3 SMALLは90%近い高いCorrmean値を示した一方、4つのモデルは20%未満と低い値を示し、二極化していることがわかった。また、モデルの規模が大きいほど性能が高いわけではなく、有害コンテンツの長さが長くなるほど軌道修正が困難になる傾向も一部のモデルで見られた。
軌道修正能力を向上させるため、75万件のペアワイズ選好データエントリで構成される合成データセットC2-SYNを作成した。このデータセットは、有害なリクエストに対して、早期の軌道修正を重視するように設計されている。具体的には、有害なレスポンスの途中から修正的なレスポンスを生成する合成モデルを用いて、軌道修正的なレスポンスをシミュレートする。その際、修正トリガーを用いることで、適切なLLMが修正的なレスポンスを生成するように誘導する。人間による評価の結果、この方法で生成された修正レスポンスは98%の高い成功率を示した。
LLAMA2-CHAT 7BとQWEN2 7Bの2つのLLMを対象に、C2-SYNを用いた選好学習(DPOアルゴリズム)を行い、軌道修正能力の向上を検証した。その結果、C2-SYNを用いた学習により、両モデルの軌道修正能力が大幅に向上することが確認された。また、一般的なベンチマークでは、学習後のモデルは学習前のモデルと比較して一貫した性能を示し、全体的な性能の低下は最小限に抑えられた。さらに、安全性に関する2つのベンチマークでは、学習後のモデルで若干の改善が見られた。これは、学習によってモデル全体の安全性プロファイルが向上したためと考えられる。
C2-SYNを用いて学習したモデルは、4つの主要なjailbreak攻撃(GCG、PAIR、AutoDAN、CipherChat)に対しても、耐性が大幅に向上していることが確認された。これは、軌道修正能力の向上によって、安全性攻撃に対するモデルの耐性が直接的に向上することを示唆している。また、LLAMA-CHAT 7Bから生成されたC2-SYNを、異なる分布を持つQWEN2 7Bに適用した結果からも、C2-SYNがOOD LLMの性能を効果的に向上させることが確認された。
本稿では、LLMにおける軌道修正の問題を体系的に調査し、C2-EVALベンチマークとC2-SYN合成選好度データセットを導入することで、LLMの軌道修正能力を評価・向上させる新しいアプローチを提案した。合成データを用いた選好学習が、2つのモデルの全体的な安全性を損なうことなく向上させることを実証し、本手法の有効性を示した。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Rongwu Xu, Y... às arxiv.org 10-29-2024
https://arxiv.org/pdf/2407.16637.pdfPerguntas Mais Profundas