Core Concepts
大規模推薦システムにおける多タスク融合のためのオフポリシー強化学習アルゴリズムを提案し、オーバーストリクトな制約を緩和し、効率的な探索ポリシーを設計することで、モデルのパフォーマンスを大幅に向上させる。
Abstract
本論文は、大規模推薦システムにおける多タスク融合(MTF)のためのオフポリシー強化学習(RL)アルゴリズムを提案している。
まず、推薦システムの3つの主要ステージ(候補生成、ランキング、MTF)について説明する。MTFは最終的な推薦結果を決定する重要なステージであり、ユーザ満足度を最大化することが目的である。
従来のMTF手法には以下の問題がある:
グリッドサーチやベイズ最適化は個人化されておらず非効率
進化戦略は単純すぎてモデル性能が限定的
上記手法はインスタント報酬のみを考慮し、長期的なユーザ満足度を無視
そこで著者らは、オフポリシーRLを用いてMTFを行う手法を提案する。具体的には以下の3点を改善している:
オフポリシーRLアルゴリズムの過剰な制約を緩和し、パフォーマンスを向上
効率的な探索ポリシーを設計し、探索効率を大幅に向上
段階的な学習モードを採用し、最適な方策を効率的に学習
提案手法は、オフラインでの評価実験とオンラインでのA/Bテストの両方で、他手法を大きく上回る性能を示した。また、提案手法は実際の推薦システムに1年以上にわたって導入されており、Tencent社の他の推薦システムでも採用されている。
Stats
提案手法のオフラインでの加重GAUC(Group Area Under the Curve)は0.8542で、他手法を大きく上回る。
オンラインでの評価では、提案手法が有効消費を+4.64%、視聴時間を+1.74%向上させた。
Quotes
"大規模推薦システムにおけるMTFは最終的な推薦結果を決定する重要なステージであり、ユーザ満足度を最大化することが目的である。"
"従来のMTF手法には個人化されていないこと、非効率であること、長期的なユーザ満足度を無視していることなどの問題がある。"
"提案手法は、オフポリシーRLアルゴリズムの過剰な制約を緩和し、効率的な探索ポリシーを設計し、段階的な学習モードを採用することで、他手法を大きく上回る性能を示した。"