Core Concepts
強化学習を用いた順次推薦システムにおいて、保守的な目的関数と対比学習を組み合わせることで、パフォーマンスと安定性を向上させることができる。
Abstract
本研究では、強化学習を用いた順次推薦システムの課題に取り組んでいる。
注意機構を備えたTransformerモデルを基盤として、強化学習を統合することで、ユーザの動的な嗜好を捉えることができる。
従来の手法では、オフポリシー学習や組合せ的な行動空間、報酬信号の不足といった課題があった。
本研究では、対比学習と保守的Q学習を組み合わせることで、これらの課題に取り組んでいる。
対比学習は、表現学習の強化に寄与し、保守的Q学習は、Q値の過剰推定を抑制することで、安定性を向上させる。
複数の実世界データセットでの実験結果から、提案手法が高いパフォーマンスと安定性を示すことが確認された。
Stats
提案手法SASRec-CCQLは、他の手法と比べて、RetailRocketデータセットでHR@20が4.5%、RC15データセットでHR@20が7.2%の改善を示した。
Yelpデータセットでは、提案手法がPurchase HR@20で11.2%の改善を示した。
Quotes
"強化学習を用いた推薦システムでは、オフポリシー学習、組合せ的な行動空間、報酬信号の不足といった課題がある。"
"対比学習は表現学習の強化に寄与し、保守的Q学習はQ値の過剰推定を抑制することで、安定性を向上させる。"