Unduh Linnk AI
•
Asisten Riset
>
Masuk
wawasan
-
LLMの多目的・多制約アラインメント
LLMアラインメントにおける新しいアプローチ:多様な目的と制約に対応するCGPO
CGPOは、報酬モデルの限界を補完する複数の制約を導入し、各タスクに最適化された報酬モデル、MoJ、最適化手法を組み合わせることで、LLMの多目的・多制約アラインメントを効果的に実現する。
1