핵심 개념
Ein neuartiger Ansatz zur Ausrichtung von Großsprachmodellen auf die vielfältigen Präferenzen von Nutzern, indem Präferenzen als Richtungsvektoren in einem mehrdimensionalen Zielraum modelliert werden.
초록
Die Studie präsentiert einen neuartigen Ansatz namens "Directional Preference Alignment" (DPA) zur Ausrichtung von Großsprachmodellen (LLMs) auf die vielfältigen Präferenzen von Nutzern. Im Gegensatz zu herkömmlichen RLHF-Ansätzen, die auf skalaren Belohnungsfunktionen basieren, modelliert DPA Nutzerpräferenzen als Richtungsvektoren in einem mehrdimensionalen Zielraum. Dies ermöglicht es den Nutzern, ihre gewünschten Zielkompromisse (z.B. mehr Hilfsbereitschaft bei weniger Weitschweifigkeit) arithmetisch zu spezifizieren.
Kernelemente des Ansatzes sind:
- Mehrzielbewertungsmodell: Erlernen eines Modells, das Antworten anhand mehrerer Attribute (z.B. Hilfsbereitschaft, Korrektheit, Weitschweifigkeit) bewertet.
- Richtungsbasierte Präferenzausrichtung: Modellierung von Nutzerpräferenzen als Richtungsvektoren im Bewertungsraum, um eine nutzerabhängige Steuerung zu ermöglichen.
- Iteratives Finetuning mit Verwerfungsabtastung: Finetuning des LLMs unter Verwendung der Bewertungen und der präferenzabhängigen Abtastung.
Die Experimente auf dem Mistral-7B-Modell zeigen, dass DPA eine effektive arithmetische Kontrolle über den Zielkonflikt zwischen Hilfsbereitschaft und Weitschweifigkeit ermöglicht, bei gleichzeitig wettbewerbsfähiger Leistung im Vergleich zu starken Baselines wie DPO.
통계
Die Hilfsbereitschaft und Weitschweifigkeit sind die beiden Zielgrößen, die bei der Ausrichtung des LLMs berücksichtigt werden.
Der Richtungsvektor v = ⟨v1, v2⟩ repräsentiert die Nutzerpräferenz, wobei v1 die Gewichtung der Hilfsbereitschaft und v2 die Gewichtung der Weitschweifigkeit angibt.
Der präferenzbedingte Belohnungswert ist R(x, v, y) = v⊤r(x, y), wobei r(x, y) den Bewertungsvektor für Prompt x und Antwort y darstellt.
인용구
"Unser ausgerichtetes LLM genießt die Flexibilität, mit unterschiedlichen in das Systemprompt eingebetteten Präferenzen gesteuert zu werden. Die Fähigkeit zur Präferenzsteuerung kann die Personalisierungsfähigkeit des Modells während der Inferenz erheblich verbessern."