核心概念
本稿では、リンク予測を逐次的意思決定問題として再定義し、コンテキストバンディットとページランクを組み合わせた、協調的な活用と探索のための新規アルゴリズム「PRB(PageRank Bandits)」を提案する。
本稿では、初期化時の無向グラフを G0 = (V, E0) とする。ここで、V は n 個のノードの集合 (|V| = n)、E0 ⊆ V × V はエッジの集合を表す。E0 は、コールドスタート設定では空集合、またはウォームスタート設定では既存のエッジを含むことができる。各ノード vi ∈ V には、コンテキストベクトル x0,i ∈ Rd が関連付けられている。そして、リンク予測を、コンテキストバンディットの枠組みにおける逐次的意思決定問題として定式化する。学習者が合計 T 個のリンク予測を完了する必要があるとする。上記の表記を、進化するすべての T 個のグラフ {Gt = (V, Et)}Tt=0−1 に適用し、[T] = {1, . . . , T} とする。リンク予測のラウンド t ∈ [T] において、Gt−1 = (V, Et−1) が与えられたとき、学習者には、提供ノード vt ∈ V と、k 個の候補ノードの集合 Vt = {vt,1, . . . , vt,k} ⊆ V が提示される。Vt には、対応する k 個のコンテキスト Xt = {xt,1, . . . , xt,k} が関連付けられており、|Vt| = k である。ソーシャルレコメンデーションのシナリオでは、vt はプラットフォーム(学習者)が潜在的な友人を推薦しようとするユーザーと考えることができ、他の候補ユーザーは Vt によって表される。Vt は、残りのノード Vt = Vt/vt として設定することも、何らかの事前選択アルゴリズム Vt ⊂ Vt によって形成することもできる。学習者の目標は、Vt のどのノードが vt とリンクまたはエッジを生成するかを予測することである。したがって、Vt の各ノードをアームと見なし、最大の報酬を持つアーム、つまり vt とエッジを生成する確率が最大のアームを選択することを目指す。簡単にするために、リンク予測の報酬をバイナリ報酬として定義する。vt,ˆi ∈ Vt を学習者が選択したノードとする。そして、リンク [vt, vt,ˆi] が実際に生成された場合、対応する報酬は rt,ˆi = 1 と定義され、そうでない場合は rt,ˆi = 0 となる。報酬 rt,ˆi を観測した後、Et−1 を更新して新しいエッジ集合 Et を取得し、それによって新しい Gt を取得する。
ノード vt,i ∈ Vt について、xt,i に関するランダム報酬 rt,i の条件付き分布を DY|xt,i で表す。ここで、Y = {1, 0} である。そして、コンテキストバンディットの文献に触発されて、次の擬似リグレットを定義する。
RT = Σ_{t=1}^{T} [E_{rt,i∗∼DY|xt,i∗}[rt,i∗] − E_{rt,ˆi∼DY|xt,ˆi}[rt,ˆi]] = P(rt,i∗= 1|xt,i∗) − P(rt,ˆi = 1|xt,ˆi) (3.1)
ここで、i∗ = arg max_{vt,i∈Vt} P(rt,i = 1|xt,i) であり、同点はランダムに解消され、ˆi は選択されたノードのインデックスである。RT は、学習済みモデルとベイズ最適予測器との性能差を反映している。学習者の目標は、RT を最小限に抑えることである。
アルゴリズム1は、提案するアルゴリズムPRBを示している。これは、コンテキストバンディットとページランクを統合し、活用と探索のバランスをとる能力とグラフ接続性を組み合わせたものである。最初のステップは、ノードコンテキストに関する報酬マッピングの観点から活用と探索のバランスをとること、2番目のステップは、グラフ接続性を介して活用と探索のスコアを伝播することである。
ノードコンテキストを活用するために、ニューラルネットワークを使用してノードコンテキストからの報酬を推定する。f1(·; θ1) を、ノードコンテキストから報酬へのマッピングを学習するニューラルネットワークとする。f1 の初期化パラメータを θ10 で表す。ラウンド t において、θ1t−1 を、選択されたすべてのノードと受信した報酬を含む、前の t−1 ラウンドの収集データでトレーニングされたパラメータとする。提供ノード vt が与えられたとき、任意の候補ノード vt,i ∈ Vt について、f1(xt,i; θ1t−1), i ∈ Vt は、観測されたコンテキストを貪欲に活用することによって推定された報酬であり、「活用」と呼ぶ。ˆi を選択されたノードのインデックスとする。θ1t−1 を更新するために、収集されたトレーニングサンプル (xt,ˆi, rt,ˆi) に基づいて、二乗損失関数 L[xt,ˆi, rt,ˆi; θ1t−1] = [f(xt,ˆi; θ1t−1) − rt,ˆi]2/2 を使用して、確率的勾配降下を実行して θ1 を更新することができる。リンク予測の次のラウンドのために、更新されたパラメータを θ1t で表す。
観測されたコンテキストを活用することに加えて、別のニューラルネットワークを使用して、探索のための報酬の観点から、各候補ノードの潜在的なゲインを推定する。このアイデアは、[12] に触発されたものである。探索ネットワークを f2(·; θ2) で表す。f2 は、ノードコンテキストと f1 の識別能力から潜在的なゲインへのマッピングを学習するものである。ラウンド t ∈ [T] において、ノードコンテキスト xt,i ∈ Vt とその推定報酬 f1(xt,i; θ1t−1) が与えられたとき、f2 への入力は、θ1t−1 に関する f1(xt,i; θ1t−1) の勾配であり、ϕ(xt,i) で表され、f2(ϕ(xt,i); θ2t−1) は推定された潜在的なゲインである。学習者がノード xt,ˆi を選択し、報酬 rt,ˆi を観測した後、潜在的なゲインは rt,ˆi − f1(xt,i; θ1t−1) として定義され、これは f2 のトレーニングに使用される。したがって、この相互作用の後、収集されたサンプル (ϕ(xt,ˆi), rt,ˆi − f1(xt,i; θ1t−1)) に基づいて、二乗損失関数 L[ϕ(xt,ˆi), rt,ˆi − f1(xt,i; θ1t−1); θ2t−1] = [f(ϕt,i; θ2t−1) − (rt,ˆi − f1(xt,i; θ1t−1))]2/2 を使用して、確率的勾配降下を実行して θ2 を更新する。リンク予測の次のラウンドのために、f2 の更新されたパラメータを θ2t で表す。ϕ(xt,i) を f2 の入力として設定した理由は次のとおりである。(1) xt,ˆi と f1(·; θ1t−1) の識別能力の両方の情報が組み込まれている。(2) 報酬推定の信頼区間の統計的形式は、ϕ(xt,i) から潜在的なゲインへのマッピング関数と見なすことができ、f2 は未知のマッピングを学習するものである [12]。
前のステップでは、リンク予測における意思決定を促進するために、ノードコンテキストの活用と探索を示した。グラフ接続性も重要であるため、次に、協調的な活用と探索を可能にするために、バンディットの原則をページランクと統合する方法を紹介する。
ページランクは、あるノードから開始するランダムウォーカーの定常分布を計算し、確率 α(ダンピングファクター)でランダムな隣人に移動するか、確率 1 − α で元の位置に戻ることを繰り返す。vt を、グラフ Gt に基づいて計算された定常分布ベクトルとする。そして、vt は以下を満たす。
vt = αPtvt + (1 − α)ht (4.1)
ここで、Pt ∈ En×n は Gt−1 に基づいて構築された遷移行列であり、ht は通常、開始ノードをマークする位置ベクトルと見なされる。Pt は D−1t−1At−1 として計算される。ここで、Dt−1 ∈ Rn×n は Gt−1 の次数行列、At−1 ∈ Rn×n は Gt−1 の隣接行列である。
ここでは、ht を使用して、候補ノードの開始時の活用スコアと探索スコアを含めることを提案する。これは、次のように定義される。
i ∈ Vt, ht[i] = f1(xt,i; θ1t−1) + f2(xt,i; θ2t−1)、および i ∈ V/Vt, ht[i] = 0. (4.2)
したがって、vt は、協調的な活用と探索に基づく最終的な意思決定のためのベクトルである。進化するグラフにおける式 4.1 の計算を高速化するために、いくつかの研究努力が払われてきた。たとえば、[42] は、PRB に統合して効率性とスケーラビリティを高めることができる(アルゴリズム1の9行目)。
ノード分類のための PRB
また、図1に示すように、ノード分類の問題を解決するために PRB を拡張する。k クラス分類問題を考える。グラフに k 個のスーパーノード {˜v1, ˜v2, . . . , ˜vk} を追加する。これは、それぞれ k 個のクラスを表す。そして、ノード分類問題をリンク予測問題に変換し、提供ノードと k 個のスーパーノード間のリンクを予測することを目指す。具体的には、ラウンド t ∈ [T] において、学習者には、提供ノード vt と、k 個の対応するコンテキスト Xt = {xt,1, xt,2, . . . , xt,k} が関連付けられた k 個の候補(スーパー)ノード Vt = {˜v1, ˜v2, . . . , ˜vk} が提示される。xt は vt に関連付けられたコンテキストであることを思い出してほしい。そして、スーパーノードのコンテキストを xt,1 = [xt, 0, . . . , 0]⊤, xt,2 = [0, xt, . . . , 0]⊤, . . . , xt,k = [0, 0, . . . , xt]⊤, xt,i ∈ Rkd, i ∈ [k] として定義する。このコンテキスト定義は、ニューラルコンテキストバンディット [12, 76] から採用されている。そして、学習者は Vt から1つのノードを選択する必要がある。˜vit を選択されたノード、˜vi∗t を真のノードとする(i∗t はノード vt の真のクラスのインデックスである)。そして、報酬 rt,it を観測した後、vt がクラス it に属している場合、つまり it = i∗t および報酬 rt,it = 1 の場合、グラフ Gt−1 に1つのエッジ [vt, ˜vit] が追加される。そうでない場合、rt,it = 0 であり、エッジ [vt, ˜vi∗t] が Gt−1 に追加される。そして、この問題に PRB を自然に適用することができる。アルゴリズム2に、ノード分類のための拡張アルゴリズムの詳細を示す。
PRB Greedy
また、アルゴリズム3で概説するように、ページランクをコンテキストバンディットの活用のみと統合した、PRB の貪欲バージョンも紹介する。実験セクションでは、アルゴリズムの各バリアントを比較する。