핵심 개념
다중 모달 정보를 충분히 활용하고 개인화된 랭킹 작업을 통해 다중 모달 모델의 핵심 모듈을 직접 학습하여 리소스 소비를 과도하게 늘리지 않으면서 더 작업 지향적인 콘텐츠 특징을 얻는다.
초록
이 논문은 다중 모달 추천 프레임워크인 EM3를 제안한다. EM3는 다중 모달 정보를 충분히 활용하고 개인화된 랭킹 작업을 통해 다중 모달 모델의 핵심 모듈을 직접 학습하여 리소스 소비를 과도하게 늘리지 않으면서 더 작업 지향적인 콘텐츠 특징을 얻는다.
첫째, Fusion-Q-Former를 제안하여 다양한 모달리티를 융합하고 고정 길이의 강건한 다중 모달 임베딩을 생성한다.
둘째, 사용자 콘텐츠 관심 순차 모델링에서 Low-Rank Adaptation 기술을 활용하여 거대한 학습 매개변수 수와 긴 시퀀스 길이 간의 갈등을 완화한다.
셋째, 콘텐츠와 ID를 서로 정렬하는 새로운 Content-ID-Contrastive 학습 작업을 제안하여 더 작업 지향적인 콘텐츠 임베딩과 더 일반화된 ID 임베딩을 얻는다.
실험에서 EM3는 오프라인 데이터셋과 온라인 A/B 테스트에서 모두 유의미한 성능 향상을 보였다. 또한 공개 데이터셋에서도 최신 기술을 능가하는 결과를 보였다.
통계
제안한 EM3 모델은 기존 모델 대비 e-com 시나리오에서 GMV 3.22%, 주문량 2.92%, CTR 1.75% 향상을 달성했다.
광고 시나리오에서는 RPM 2.64%, 수익 3.17% 향상을 달성했다.
콜드 스타트 아이템의 경우 2.07% 더 많은 노출을 받았다.
인용구
"다중 모달 정보를 충분히 활용하고 개인화된 랭킹 작업을 통해 다중 모달 모델의 핵심 모듈을 직접 학습하여 리소스 소비를 과도하게 늘리지 않으면서 더 작업 지향적인 콘텐츠 특징을 얻는다."
"Fusion-Q-Former를 제안하여 다양한 모달리티를 융합하고 고정 길이의 강건한 다중 모달 임베딩을 생성한다."
"Low-Rank Adaptation 기술을 활용하여 거대한 학습 매개변수 수와 긴 시퀀스 길이 간의 갈등을 완화한다."
"Content-ID-Contrastive 학습 작업을 제안하여 더 작업 지향적인 콘텐츠 임베딩과 더 일반화된 ID 임베딩을 얻는다."