toplogo
サインイン

リンク予測のためのページランクバンディット


核心概念
本稿では、リンク予測を逐次的意思決定問題として再定義し、コンテキストバンディットとページランクを組み合わせた、協調的な活用と探索のための新規アルゴリズム「PRB(PageRank Bandits)」を提案する。
要約

リンク予測のためのページランクバンディット

edit_icon

要約をカスタマイズ

edit_icon

AI でリライト

edit_icon

引用を生成

translate_icon

原文を翻訳

visual_icon

マインドマップを作成

visit_icon

原文を表示

本稿では、初期化時の無向グラフを G0 = (V, E0) とする。ここで、V は n 個のノードの集合 (|V| = n)、E0 ⊆ V × V はエッジの集合を表す。E0 は、コールドスタート設定では空集合、またはウォームスタート設定では既存のエッジを含むことができる。各ノード vi ∈ V には、コンテキストベクトル x0,i ∈ Rd が関連付けられている。そして、リンク予測を、コンテキストバンディットの枠組みにおける逐次的意思決定問題として定式化する。学習者が合計 T 個のリンク予測を完了する必要があるとする。上記の表記を、進化するすべての T 個のグラフ {Gt = (V, Et)}Tt=0−1 に適用し、[T] = {1, . . . , T} とする。リンク予測のラウンド t ∈ [T] において、Gt−1 = (V, Et−1) が与えられたとき、学習者には、提供ノード vt ∈ V と、k 個の候補ノードの集合 Vt = {vt,1, . . . , vt,k} ⊆ V が提示される。Vt には、対応する k 個のコンテキスト Xt = {xt,1, . . . , xt,k} が関連付けられており、|Vt| = k である。ソーシャルレコメンデーションのシナリオでは、vt はプラットフォーム(学習者)が潜在的な友人を推薦しようとするユーザーと考えることができ、他の候補ユーザーは Vt によって表される。Vt は、残りのノード Vt = Vt/vt として設定することも、何らかの事前選択アルゴリズム Vt ⊂ Vt によって形成することもできる。学習者の目標は、Vt のどのノードが vt とリンクまたはエッジを生成するかを予測することである。したがって、Vt の各ノードをアームと見なし、最大の報酬を持つアーム、つまり vt とエッジを生成する確率が最大のアームを選択することを目指す。簡単にするために、リンク予測の報酬をバイナリ報酬として定義する。vt,ˆi ∈ Vt を学習者が選択したノードとする。そして、リンク [vt, vt,ˆi] が実際に生成された場合、対応する報酬は rt,ˆi = 1 と定義され、そうでない場合は rt,ˆi = 0 となる。報酬 rt,ˆi を観測した後、Et−1 を更新して新しいエッジ集合 Et を取得し、それによって新しい Gt を取得する。 ノード vt,i ∈ Vt について、xt,i に関するランダム報酬 rt,i の条件付き分布を DY|xt,i で表す。ここで、Y = {1, 0} である。そして、コンテキストバンディットの文献に触発されて、次の擬似リグレットを定義する。 RT = Σ_{t=1}^{T} [E_{rt,i∗∼DY|xt,i∗}[rt,i∗] − E_{rt,ˆi∼DY|xt,ˆi}[rt,ˆi]] = P(rt,i∗= 1|xt,i∗) − P(rt,ˆi = 1|xt,ˆi) (3.1) ここで、i∗ = arg max_{vt,i∈Vt} P(rt,i = 1|xt,i) であり、同点はランダムに解消され、ˆi は選択されたノードのインデックスである。RT は、学習済みモデルとベイズ最適予測器との性能差を反映している。学習者の目標は、RT を最小限に抑えることである。
アルゴリズム1は、提案するアルゴリズムPRBを示している。これは、コンテキストバンディットとページランクを統合し、活用と探索のバランスをとる能力とグラフ接続性を組み合わせたものである。最初のステップは、ノードコンテキストに関する報酬マッピングの観点から活用と探索のバランスをとること、2番目のステップは、グラフ接続性を介して活用と探索のスコアを伝播することである。 ノードコンテキストを活用するために、ニューラルネットワークを使用してノードコンテキストからの報酬を推定する。f1(·; θ1) を、ノードコンテキストから報酬へのマッピングを学習するニューラルネットワークとする。f1 の初期化パラメータを θ10 で表す。ラウンド t において、θ1t−1 を、選択されたすべてのノードと受信した報酬を含む、前の t−1 ラウンドの収集データでトレーニングされたパラメータとする。提供ノード vt が与えられたとき、任意の候補ノード vt,i ∈ Vt について、f1(xt,i; θ1t−1), i ∈ Vt は、観測されたコンテキストを貪欲に活用することによって推定された報酬であり、「活用」と呼ぶ。ˆi を選択されたノードのインデックスとする。θ1t−1 を更新するために、収集されたトレーニングサンプル (xt,ˆi, rt,ˆi) に基づいて、二乗損失関数 L[xt,ˆi, rt,ˆi; θ1t−1] = [f(xt,ˆi; θ1t−1) − rt,ˆi]2/2 を使用して、確率的勾配降下を実行して θ1 を更新することができる。リンク予測の次のラウンドのために、更新されたパラメータを θ1t で表す。 観測されたコンテキストを活用することに加えて、別のニューラルネットワークを使用して、探索のための報酬の観点から、各候補ノードの潜在的なゲインを推定する。このアイデアは、[12] に触発されたものである。探索ネットワークを f2(·; θ2) で表す。f2 は、ノードコンテキストと f1 の識別能力から潜在的なゲインへのマッピングを学習するものである。ラウンド t ∈ [T] において、ノードコンテキスト xt,i ∈ Vt とその推定報酬 f1(xt,i; θ1t−1) が与えられたとき、f2 への入力は、θ1t−1 に関する f1(xt,i; θ1t−1) の勾配であり、ϕ(xt,i) で表され、f2(ϕ(xt,i); θ2t−1) は推定された潜在的なゲインである。学習者がノード xt,ˆi を選択し、報酬 rt,ˆi を観測した後、潜在的なゲインは rt,ˆi − f1(xt,i; θ1t−1) として定義され、これは f2 のトレーニングに使用される。したがって、この相互作用の後、収集されたサンプル (ϕ(xt,ˆi), rt,ˆi − f1(xt,i; θ1t−1)) に基づいて、二乗損失関数 L[ϕ(xt,ˆi), rt,ˆi − f1(xt,i; θ1t−1); θ2t−1] = [f(ϕt,i; θ2t−1) − (rt,ˆi − f1(xt,i; θ1t−1))]2/2 を使用して、確率的勾配降下を実行して θ2 を更新する。リンク予測の次のラウンドのために、f2 の更新されたパラメータを θ2t で表す。ϕ(xt,i) を f2 の入力として設定した理由は次のとおりである。(1) xt,ˆi と f1(·; θ1t−1) の識別能力の両方の情報が組み込まれている。(2) 報酬推定の信頼区間の統計的形式は、ϕ(xt,i) から潜在的なゲインへのマッピング関数と見なすことができ、f2 は未知のマッピングを学習するものである [12]。 前のステップでは、リンク予測における意思決定を促進するために、ノードコンテキストの活用と探索を示した。グラフ接続性も重要であるため、次に、協調的な活用と探索を可能にするために、バンディットの原則をページランクと統合する方法を紹介する。 ページランクは、あるノードから開始するランダムウォーカーの定常分布を計算し、確率 α(ダンピングファクター)でランダムな隣人に移動するか、確率 1 − α で元の位置に戻ることを繰り返す。vt を、グラフ Gt に基づいて計算された定常分布ベクトルとする。そして、vt は以下を満たす。 vt = αPtvt + (1 − α)ht (4.1) ここで、Pt ∈ En×n は Gt−1 に基づいて構築された遷移行列であり、ht は通常、開始ノードをマークする位置ベクトルと見なされる。Pt は D−1t−1At−1 として計算される。ここで、Dt−1 ∈ Rn×n は Gt−1 の次数行列、At−1 ∈ Rn×n は Gt−1 の隣接行列である。 ここでは、ht を使用して、候補ノードの開始時の活用スコアと探索スコアを含めることを提案する。これは、次のように定義される。 i ∈ Vt, ht[i] = f1(xt,i; θ1t−1) + f2(xt,i; θ2t−1)、および i ∈ V/Vt, ht[i] = 0. (4.2) したがって、vt は、協調的な活用と探索に基づく最終的な意思決定のためのベクトルである。進化するグラフにおける式 4.1 の計算を高速化するために、いくつかの研究努力が払われてきた。たとえば、[42] は、PRB に統合して効率性とスケーラビリティを高めることができる(アルゴリズム1の9行目)。 ノード分類のための PRB また、図1に示すように、ノード分類の問題を解決するために PRB を拡張する。k クラス分類問題を考える。グラフに k 個のスーパーノード {˜v1, ˜v2, . . . , ˜vk} を追加する。これは、それぞれ k 個のクラスを表す。そして、ノード分類問題をリンク予測問題に変換し、提供ノードと k 個のスーパーノード間のリンクを予測することを目指す。具体的には、ラウンド t ∈ [T] において、学習者には、提供ノード vt と、k 個の対応するコンテキスト Xt = {xt,1, xt,2, . . . , xt,k} が関連付けられた k 個の候補(スーパー)ノード Vt = {˜v1, ˜v2, . . . , ˜vk} が提示される。xt は vt に関連付けられたコンテキストであることを思い出してほしい。そして、スーパーノードのコンテキストを xt,1 = [xt, 0, . . . , 0]⊤, xt,2 = [0, xt, . . . , 0]⊤, . . . , xt,k = [0, 0, . . . , xt]⊤, xt,i ∈ Rkd, i ∈ [k] として定義する。このコンテキスト定義は、ニューラルコンテキストバンディット [12, 76] から採用されている。そして、学習者は Vt から1つのノードを選択する必要がある。˜vit を選択されたノード、˜vi∗t を真のノードとする(i∗t はノード vt の真のクラスのインデックスである)。そして、報酬 rt,it を観測した後、vt がクラス it に属している場合、つまり it = i∗t および報酬 rt,it = 1 の場合、グラフ Gt−1 に1つのエッジ [vt, ˜vit] が追加される。そうでない場合、rt,it = 0 であり、エッジ [vt, ˜vi∗t] が Gt−1 に追加される。そして、この問題に PRB を自然に適用することができる。アルゴリズム2に、ノード分類のための拡張アルゴリズムの詳細を示す。 PRB Greedy また、アルゴリズム3で概説するように、ページランクをコンテキストバンディットの活用のみと統合した、PRB の貪欲バージョンも紹介する。実験セクションでは、アルゴリズムの各バリアントを比較する。

抽出されたキーインサイト

by Yikun Ban, J... 場所 arxiv.org 11-05-2024

https://arxiv.org/pdf/2411.01410.pdf
PageRank Bandits for Link Prediction

深掘り質問

リンク予測のタスクにおいて、PRBは他のグラフベースの機械学習手法とどのように統合できるか?

PRBは、その構造上、他のグラフベースの機械学習手法と柔軟に統合し、リンク予測の精度を向上させることができます。 ノード表現学習: PRBは、ノードのコンテキスト情報のみを利用していますが、Graph Neural Networks (GNNs)などの手法で学習したノード表現をコンテキスト情報に追加することで、より豊富な情報を活用できます。例えば、GraphSAGE[31]やGraph Convolutional Networks (GCN)[36]を用いて学習したノード埋め込みをPRBの入力特徴量に追加できます。 候補ノードの絞り込み: PRBは、全てのノードを候補として考慮するため、大規模なグラフでは計算コストが高くなる可能性があります。そこで、ノード間の構造的な類似性に基づいて候補ノードを絞り込む手法を組み合わせることで、計算効率を向上できます。例えば、Jaccard係数やAdamic/Adar指標[3]を用いて、あらかじめ類似度の高いノードペアを候補として選択できます。 報酬関数の高度化: PRBは、単純なバイナリ報酬を用いていますが、他のグラフベースの手法で学習したリンク予測確率を報酬として組み込むことで、より高度な報酬設計が可能になります。例えば、リンク予測に特化したGNNモデル[18, 61]の出力を報酬としてPRBに取り入れることで、より正確なリンク予測に繋げることができます。 時間的な変化の考慮: PRBは、静的なグラフを前提としていますが、Dynamic Graph Neural Networks (DGNNs)などの手法と組み合わせることで、時間とともに変化するグラフ構造にも対応できます。例えば、Temporal Graph Networks (TGN)[58]を用いて時間的な依存関係を考慮したノード表現を学習し、PRBの入力に用いることができます。 このように、PRBは他のグラフベースの機械学習手法と組み合わせることで、より高精度かつ効率的なリンク予測を実現できます。

グラフ構造が時間とともに変化する場合、PRBの性能はどのように影響を受けるか?

PRBは、原理的に静的なグラフを想定しており、時間とともにグラフ構造が変化する場合、そのパフォーマンスに影響が出ることが考えられます。 精度低下: PRBは過去のリンク予測結果に基づいてグラフ構造を更新し、その情報を活用して次のリンク予測を行います。しかし、グラフ構造が時間とともに変化する場合、過去の情報が最新の状態と乖離し、予測精度が低下する可能性があります。 探索と活用のバランス: 時間とともに新しいノードやエッジが出現する場合、PRBは既存の知識に基づいた活用を重視しすぎて、新しい情報に対する探索が不足する可能性があります。 これらの問題に対処するために、以下の様な対策が考えられます。 時間減衰の導入: 過去のリンク予測結果の影響を時間とともに減衰させることで、より最新の情報に重みを置くことができます。具体的には、過去の報酬やPageRank計算に用いる遷移行列に対して、時間経過に応じた減衰係数を適用します。 動的なグラフ構造への対応: Dynamic Graph Neural Networks (DGNNs) などを用いて、時間的な変化を考慮したノード表現を学習し、PRBの入力に用いることで、動的なグラフ構造にも対応できます。 探索戦略の強化: ε-greedy法などの探索戦略を導入することで、一定確率で過去の情報にとらわれず、新しいノードやエッジを探索することができます。 これらの対策を講じることで、時間とともに変化するグラフ構造にも対応できるようPRBを拡張し、安定したリンク予測パフォーマンスを維持できる可能性があります。

PRBは、不正アカウントの検出や創薬など、他のドメインのリンク予測にどのように適用できるか?

PRBは、リンク予測問題全般に適用可能なフレームワークであり、不正アカウントの検出や創薬など、様々なドメインでの応用が期待できます。 1. 不正アカウントの検出: 問題設定: オンラインソーシャルネットワークにおける不正アカウントは、通常のユーザーとは異なる行動パターンを示す傾向があります。PRBを用いて、ユーザー間のリンク(フォロー関係など)を予測することで、不正アカウントを検出できます。 適用例: 特徴量: ユーザーの属性情報(アカウント作成日、投稿頻度、フォロー/フォロワー数など)や行動履歴(投稿内容、いいね!やコメントの傾向など)を特徴量として用います。 報酬: 不正アカウントと判定されたアカウントとのリンク予測に対しては負の報酬を与え、正常なアカウントとのリンク予測に対しては正の報酬を与えます。 利点: PRBは、新しい不正アカウントの出現にも動的に対応できるため、未知の不正パターンにも柔軟に対応できます。 2. 創薬: 問題設定: 創薬においては、薬剤候補化合物と標的タンパク質との相互作用を予測することが重要です。PRBを用いて、化合物とタンパク質間のリンク(相互作用の有無)を予測することで、創薬プロセスを加速できます。 適用例: 特徴量: 化合物の分子構造情報(分子量、原子数、結合情報など)やタンパク質のアミノ酸配列情報、既存の薬剤-標的タンパク質相互作用データベースの情報などを特徴量として用います。 報酬: 既知の相互作用データに基づいて、正しく相互作用を予測できた場合に正の報酬を与え、誤って予測した場合には負の報酬を与えます。 利点: PRBは、膨大な化合物ライブラリの中から、有望な薬剤候補を効率的に探索することができます。 3. その他の応用: レコメンデーション: ユーザーとアイテム間の潜在的な興味関心を表すリンクを予測することで、よりパーソナライズされたレコメンデーションを提供できます。 知識グラフの補完: 既存の知識グラフに存在しないリンクを予測することで、知識グラフの網羅性を向上できます。 金融取引の不正検出: 取引履歴や顧客情報に基づいて、不正な取引に関与する可能性のあるアカウント間のリンクを予測することで、不正行為を未然に防ぐことができます。 このように、PRBは様々なドメインにおけるリンク予測問題に適用でき、その応用範囲は多岐に渡ります。
0
star