核心概念
본 논문에서는 언어 모델 기반 추천 시스템의 성능을 향상시키기 위해 사용자 선호도를 효과적으로 학습하는 새로운 손실 함수인 S-DPO를 제안합니다. S-DPO는 기존 DPO를 확장하여 다중 부정 샘플을 활용하고, 이를 통해 순위 정보를 언어 모델에 효과적으로 주입합니다.
要約
소프트맥스 직접 선호도 최적화를 통한 추천 시스템 성능 향상에 대한 연구 논문 요약
Chen, Y., Tan, J., Zhang, A. et al. On Softmax Direct Preference Optimization for Recommendation. NeurIPS, 2024. (submitted)
본 연구는 언어 모델(LM) 기반 추천 시스템에서 사용자 선호도를 효과적으로 모델링하고 순위 성능을 향상시키는 새로운 학습 방법을 제시하는 것을 목표로 합니다.