大規模言語モデル(LLMs)への微細な制御が重要であり、Directional Preference Alignment(DPA)フレームワークは、多目的報酬モデリングを導入して異なる選好プロファイルを表現します。DPAは、単位ベクトルとしてユーザー選好を報酬空間内で表現し、RLHFメソッドに採用されたRejection Sampling Finetuning(RSF)の優れたパフォーマンストレードオフを享受します。スカラー報酬RLHFと比較して、DPAはLLM生成に対する直感的な制御を提供し、効果的な算術制御を実現します。また、Mistral-7B上で実世界のアラインメント実験においてDPAの効果を検証しました。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Haoxiang Wan... في arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18571.pdfاستفسارات أعمق