Core Concepts
대규모 추천 시스템에서 장기적인 사용자 만족도를 최대화하기 위해 오프-정책 강화 학습 알고리즘을 활용한 다중 작업 융합 기법을 제안한다.
Abstract
이 논문은 대규모 추천 시스템에서 다중 작업 융합(MTF)을 위한 강화 학습 알고리즘을 제안한다. MTF는 추천 시스템의 마지막 핵심 단계로, 다중 작업 학습(MTL) 모델에서 출력된 다양한 점수를 결합하여 최종 점수를 생성하여 사용자 만족도를 최대화한다.
기존 오프-정책 강화 학습 알고리즘은 다음과 같은 문제점이 있다: 1) 분포 외 문제(OOD)를 피하기 위해 제약 조건이 너무 엄격하여 성능이 크게 저하된다. 2) 탐험 정책을 인식하지 못하고 실제 환경과 상호 작용하지 않아 최적의 정책을 학습할 수 없다. 3) 기존 탐험 정책은 비효율적이며 사용자 경험에 부정적인 영향을 미친다.
이를 해결하기 위해 저자들은 다음과 같은 솔루션을 제안한다:
오프-정책 강화 학습 모델과 온라인 탐험 정책을 통합하여 과도한 제약 조건을 완화하고 모델 성능을 크게 향상시킨다.
잠재적으로 높은 가치의 상태-행동 쌍을 탐험하는 매우 효율적인 온라인 탐험 정책을 설계한다.
온라인 탐험과 오프라인 모델 학습을 반복하는 점진적 학습 모드를 도입하여 최적의 정책을 학습한다.
저자들은 오프라인 평가와 온라인 A/B 테스트를 통해 제안한 RL-MTF 모델이 다른 모델에 비해 월등한 성능을 보임을 입증했다. 또한 이 모델은 텐센트 뉴스의 단편 동영상 채널에 약 1년 동안 완전히 배포되었으며, 텐센트의 다른 대규모 추천 시스템에서도 사용되고 있다.
Stats
사용자의 유효 소비(10초 이상 시청)는 사용자 만족도의 중요한 지표이다.
사용자의 총 시청 시간은 사용자 만족도를 평가하는 또 다른 중요한 지표이다.
Quotes
"현재 추천은 동일한 세션 내에서 이후 추천에 명확한 영향을 미친다."
"기존 오프-정책 강화 학습 알고리즘은 분포 외 문제를 피하기 위해 너무 엄격하고 복잡한 제약 조건을 가지고 있어 성능이 크게 저하된다."
"온라인 탐험과 오프라인 모델 학습이 독립적인 프로세스이기 때문에, 기존 오프-정책 강화 학습 알고리즘은 탐험 정책을 인식하지 못하고 실제 환경과 상호 작용하지 않아 최적의 정책을 학습할 수 없다."