下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
方向性選好と多目的報酬によるLLMの制御
LLMの多様なユーザーの好みに対する算術制御
DPAは、複雑な人間の好みを高次元の選好ベクトルで取り込むことで、従来のスカラー報酬モデルの制約を緩和します。
1