Core Concepts
大規模推薦システムにおいて、リアルタイム計算とキャッシュの使い分けを最適化することで、ユーザーの長期的な関与を向上させる。
Abstract
本論文は、大規模推薦システムにおけるキャッシュ対応強化学習(CARL)について提案している。
大規模推薦システムは計算集約的なインフラストラクチャに基づいており、ピーク時とオフピーク時の大きな負荷差があるという課題がある。ピーク時にリアルタイム計算を行うのは困難であるため、ユーザー単位のキャッシュを使ってレコメンデーションを提供するという解決策が提案されている。
しかし、キャッシュされたレコメンデーションはリアルタイム計算に比べて最適ではない。また、各ユーザーのキャッシュの内容を決定するのが難しい。
そこで本論文では、CARL方式を提案する。CARL方式は、リアルタイム計算とキャッシュの使い分けを最適化することで、ユーザーの長期的な関与を向上させる。
CARL方式では、ユーザーの状態とキャッシュの状態を表すマルコフ決定過程を定義する。キャッシュの状態は、推薦システムの計算負荷によって決まる。
また、キャッシュの存在により、強化学習アルゴリズムの性能が低下する「クリティック依存性」という課題が生じることを示し、固有関数学習(EL)手法を提案して、この課題に対処する。
実験の結果、CARL-ELはユーザーの関与を大幅に向上させることが示された。CARL-ELは現在、1億人以上のユーザーに提供されているKwaiアプリで運用されている。
Stats
ピーク時の計算負荷はオフピーク時の数倍に達する
リアルタイムレコメンデーションの平均ユーザー関与は、キャッシュレコメンデーションの0.85倍、0.68倍、0.54倍である
Quotes
「大規模推薦システムは計算集約的なインフラストラクチャに基づいており、ピーク時とオフピーク時の大きな負荷差がある」
「キャッシュされたレコメンデーションはリアルタイム計算に比べて最適ではない」