이 튜토리얼은 가우시안 프로세스 기반의 선호도 학습 모델을 제시하여, 합리성 원칙(경제학 및 의사결정론)을 학습 과정에 자연스럽게 통합하는 방법을 보여줍니다. 다양한 선호도 모델을 통해 무작위 효용 모델, 구분 한계, 다중 상충 효용 시나리오를 다룹니다.
대규모 언어 모델(LLM)의 수학적 추론 능력을 향상시키기 위해, 미묘한 오류를 의도적으로 주입한 자가 편집 솔루션을 활용한 새로운 선호도 학습 프레임워크를 제안합니다.
인간의 선호도를 효과적으로 모델링하는 것은 유용한 생성적 대규모 언어 모델(LLM)을 구축하는 데 필수적이며, 본 논문에서는 기존 방법의 한계점을 해결하는 새로운 접근 방식인 DRDO(Direct Reward Distillation and policy-Optimization)를 제시합니다.
이 연구에서는 대규모 언어 모델(LLM)을 다차원적 인간 선호도에 맞춰 효과적으로 정렬하는 새로운 방법인 순차적 선호도 최적화(SPO)를 제안합니다.