Kernkonzepte
Grounding LLMs with evident preferences through controllable preference optimization can achieve multi-objective alignment.
Zusammenfassung
人間の価値観とモデルの一貫性を追求するAIアライメントにおいて、多面的な人間の選好が「アライメント税」として知られる妥協をもたらすことがある。既存のアライメント技術は主に一方向であり、複数の目標に対する柔軟性を欠いている。この課題に対処するため、明確な選好スコアを指定し、モデルが要件を満たす応答を生成するように導く「CPO」が導入された。実験分析では、整合したモデルは、「3H」(助け、正直さ、無害性)の望ましい特性に一致する応答を提供できることが示された。異なるデータとアライメント目標を導入することで、基準方法を上回り、単一目標との整合性税の影響を緩和し、多目的整合性でパレート改善を達成した。
Statistiken
3H(助け:7.29, 正直さ:6.94, 無害性:7.11)
UltraFeedbackデータセット(114k CPSFTデータ)
HH-RLHFデータセット(830高品質ジェイルブレイクプロンプト)
Zitate
"Alignment in artificial intelligence pursues the consistency between model responses and human preferences as well as values."
"We introduce controllable preference optimization (CPO), which explicitly specifies preference scores for different objectives, thereby guiding the model to generate responses that meet the requirements."
"Our experimental analysis reveals that the aligned models can provide responses that match various preferences among the '3H' (helpfulness, honesty, harmlessness) desiderata."
"CPO surpasses the original SFT and DPO on all three objectives including helpfulness, honesty, and harmlessness, via explicit grounding the preference conditions."