이 논문은 대형 언어 모델(LLM)을 활용하여 개인화된 멀티모달 콘텐츠를 생성하는 방법을 제안한다.
먼저 사용자의 과거 행동 데이터(예: 추천 시스템의 클릭 기록, 가상 비서와의 대화 내용)를 자연어로 변환하여 LLM이 이해할 수 있도록 한다. 이를 통해 사용자의 선호도를 추출한다.
추출된 사용자 선호도는 멀티모달 LLM 또는 확산 모델과 같은 생성기에 입력되어 개인화된 콘텐츠를 생성한다.
사용자 선호도를 정확하게 포착하기 위해, 명시적 키워드와 암시적 임베딩을 결합하여 표현한다. 이 조합은 생성기의 프롬프트로 사용된다.
또한 생성 과정에서 정확성 점수와 선호도 점수의 가중합을 최적화하여, 생성된 콘텐츠가 사용자 선호도와 타겟 아이템의 특성을 균형 있게 반영하도록 한다.
실험 결과, 기존 방법 대비 최대 8%의 LPIPS 향상을 보이며 생성 정확성도 유지하는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xiaoteng She... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08677.pdfDeeper Inquiries