본 연구는 기존 대화형 추천 시스템의 한계를 극복하기 위해 다중 유형 속성 다중 라운드 대화형 추천(MTAMCR) 문제를 제안한다. MTAMCR에서는 대화형 추천 시스템이 한 라운드에서 다양한 속성 유형에 대한 다중 선택 질문을 할 수 있어 사용자 선호도를 효율적으로 파악할 수 있다.
이를 위해 계층적 강화학습 기반의 Chain-of-Choice Hierarchical Policy Learning(CoCHPL) 프레임워크를 제안한다. CoCHPL은 장기 정책과 단기 정책으로 구성되어 있다. 장기 정책은 질문 또는 추천 중 어떤 옵션을 선택할지 결정하고, 단기 정책은 선택한 옵션에 따라 다중 속성 또는 아이템 체인을 생성한다. 단기 정책은 사용자 피드백 예측 및 다음 상태 추론 기능을 활용하여 속성 간 다양성과 의존성을 최적화한다.
실험 결과, CoCHPL은 기존 대화형 추천 시스템 대비 성공률, 평균 대화 라운드, 추천 순위 성능 등에서 큰 향상을 보였다. 특히 다중 유형 속성 질문 생성 능력과 속성 간 의존성 모델링 측면에서 두드러진 성능 향상을 확인할 수 있었다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Wei Fan,Weij... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2310.17922.pdfPerguntas Mais Profundas