Core Concepts
대형 언어 모델 기반 추천 모델의 성능은 뛰어나지만 추론 지연 시간이 크게 문제가 되어 실용적 적용이 어려운 상황이다. 이를 해결하기 위해 지식 증류 기법을 활용하여 경량 순차적 추천 모델의 성능을 향상시킬 수 있다.
Abstract
이 논문은 대형 언어 모델 기반 추천 모델(교사 모델)의 지식을 경량 순차적 추천 모델(학생 모델)에 효과적으로 전달하는 방법을 제안한다.
교사 모델의 지식이 항상 신뢰할 수 있는 것은 아니므로, 중요도 가중치를 도입하여 신뢰할 수 있고 학생 모델에 적합한 지식만 선별적으로 전달한다.
교사 모델과 학생 모델의 임베딩 공간이 크게 다르므로, 협업 필터링 신호를 포함하는 오프셋 항을 도입하여 교사 모델의 지식을 학생 모델의 임베딩 공간에 효과적으로 전달한다.
이를 통해 DLLM2Rec 모델을 제안하였으며, 실험 결과 DLLM2Rec는 기존 지식 증류 기법 대비 평균 47.97% 성능 향상을 보였고, 때로는 대형 언어 모델 기반 추천 모델을 능가하는 성능을 달성하였다. 또한 DLLM2Rec는 경량 모델임에도 불구하고 빠른 추론 속도를 유지할 수 있다.
Stats
대형 언어 모델 기반 추천 모델 BIGRec의 추론 시간은 Amazon Games 데이터셋에서 2.3 x 10^4초, Amazon Toys 데이터셋에서 1.1 x 10^4초가 소요된다.
반면 DLLM2Rec 기반 학생 모델의 추론 시간은 Amazon Games 데이터셋에서 1.8초, Amazon Toys 데이터셋에서 1.6초로 매우 빠르다.
Quotes
"LLMs have showcased remarkable capabilities in content comprehension, generation, and semantic reasoning"
"the high inference latency of LLMs significantly restricts their practical deployment"
"the teacher's knowledge may not always be reliable"
"the capacity gap between the teacher and student makes it difficult for the student to assimilate the teacher's knowledge"
"divergence in semantic space poses a challenge to distill the knowledge from embeddings"