다양한 사용자 선호도를 반영하기 위해 다목적 보상 모델과 방향성 선호도 정렬 기법을 제안한다. 이를 통해 단일 언어 모델이 사용자의 선호도에 따라 도움이 되면서도 간결한 응답을 생성할 수 있다.