Download Linnk AI
•
Forskningsassistent
>
Log på
indsigt
-
方向性選好と多目的報酬によるLLMの制御
LLMの多様なユーザーの好みに対する算術制御
DPAは、複雑な人間の好みを高次元の選好ベクトルで取り込むことで、従来のスカラー報酬モデルの制約を緩和します。
1