Завантажити Linnk AI
•
Помічник з досліджень
>
Увійти
ідея
-
方向性選好と多目的報酬によるLLMの制御
LLMの多様なユーザーの好みに対する算術制御
DPAは、複雑な人間の好みを高次元の選好ベクトルで取り込むことで、従来のスカラー報酬モデルの制約を緩和します。
1