Core Concepts
大規模言語モデルを利用して、状態報酬と行動をモデリングすることで、オフラインRLベースのレコメンダーシステムのパフォーマンスを向上させる。
Abstract
強化学習(RL)に基づくレコメンダーシステムは、過去のユーザーとアイテムの相互作用から正確な次アイテム推薦を学習し、期待に応える性能を示す。
大規模言語モデル(LLM)を環境(LE)として活用し、オフラインデータに対する高品質なフィードバックを生成することで、RLベースのレコメンダーを強化する。
LE Augmentation(LEA)方法は、オフライントレーニングデータを拡充し、推奨されたポジティブなアクションがトレーニング効果を向上させる。
LEAは既存のRLフレームワークよりも優れたパフォーマンスを発揮し、推奨されたポジティブなアクションがオフライントレーニングに与える影響が明らかになっている。
Stats
LLMはRSでゼロショットまたは事前訓練されたRSとして受け入れられている。
LLMは世界モデルであり、RLアプリケーション内で報酬モデルとして使用されている。
Quotes
"LLM-recommenders have been proven to perform on par with, or even outperform, conventional models."
"We propose an LLM-based Environment (LE), acting as the state model and reward function, to improve the performance of the offline RL-based recommender systems."