核心概念
DPAは、複雑な人間の好みを高次元の選好ベクトルで取り込むことで、従来のスカラー報酬モデルの制約を緩和します。
要約
大規模言語モデル(LLMs)への微細な制御が重要であり、Directional Preference Alignment(DPA)フレームワークは、多目的報酬モデリングを導入して異なる選好プロファイルを表現します。DPAは、単位ベクトルとしてユーザー選好を報酬空間内で表現し、RLHFメソッドに採用されたRejection Sampling Finetuning(RSF)の優れたパフォーマンストレードオフを享受します。スカラー報酬RLHFと比較して、DPAはLLM生成に対する直感的な制御を提供し、効果的な算術制御を実現します。また、Mistral-7B上で実世界のアラインメント実験においてDPAの効果を検証しました。
統計
ユーザー1と3は応答BよりもCを好む(B ≺ C)
ユーザー2はCよりもBを好む(C ≺ B)
77%のChatGPT回答が冗長であることが示されています。
DPOでは反復するごとに平均出力長が2.5倍に増加します。
我々のDPAアラインメントモデルはSFT、DPO、SteerLMよりも優れた結果を示しました。
引用
"Romeo and Juliet" is a play about two young lovers who come from feuding families.
"Romeo and Juliet" is a classic tragedy written by William Shakespeare.
Our method provides straightforward arithmetic control over the trade-off between helpfulness and verbosity.