大規模言語モデル(LLMs)への微細な制御が重要であり、Directional Preference Alignment(DPA)フレームワークは、多目的報酬モデリングを導入して異なる選好プロファイルを表現します。DPAは、単位ベクトルとしてユーザー選好を報酬空間内で表現し、RLHFメソッドに採用されたRejection Sampling Finetuning(RSF)の優れたパフォーマンストレードオフを享受します。スカラー報酬RLHFと比較して、DPAはLLM生成に対する直感的な制御を提供し、効果的な算術制御を実現します。また、Mistral-7B上で実世界のアラインメント実験においてDPAの効果を検証しました。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haoxiang Wan... lúc arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18571.pdfYêu cầu sâu hơn