核心概念
다양한 사용자 선호도를 반영하기 위해 다목적 보상 모델과 방향성 선호도 정렬 기법을 제안한다. 이를 통해 단일 언어 모델이 사용자의 선호도에 따라 도움이 되면서도 간결한 응답을 생성할 수 있다.
摘要
이 논문은 대규모 언어 모델(LLM)의 사용자 선호도 정렬을 위한 새로운 접근법인 Directional Preference Alignment(DPA)를 제안한다.
- 다목적 보상 모델
- 도움이 되는 정도, 간결성 등 다양한 속성을 고려하여 응답에 대한 다차원 보상 모델을 학습한다.
- 방향성 선호도 정렬
- 사용자의 선호도를 단위 벡터로 모델링하여, 사용자가 원하는 보상 함수의 조합을 산술적으로 지정할 수 있게 한다.
- 반복적인 거부 샘플링 파인튜닝을 통해 다양한 사용자 선호도에 맞춰 LLM을 정렬한다.
실험 결과, DPA 모델은 도움이 되면서도 간결한 응답을 생성할 수 있으며, 기존 방식인 DPO 모델보다 우수한 성능을 보인다. 이를 통해 단일 LLM이 사용자의 다양한 선호도를 효과적으로 반영할 수 있음을 보여준다.
统计
도움이 되는 정도와 간결성 사이의 상충관계로 인해 기존 RLHF 모델은 과도하게 장문의 응답을 생성하는 경향이 있다.
제안한 DPA 모델은 사용자의 선호도 벡터를 통해 도움이 되면서도 간결한 응답을 생성할 수 있다.
引用
"Fine-grained control over large language models (LLMs) remains a significant challenge, hindering their adaptability to diverse user needs."
"Reinforcement Learning from Human Feedback (RLHF) shows promise in aligning LLMs, its reliance on scalar rewards often limits its ability to capture diverse user preferences in real-world applications."