แนวคิดหลัก
本文提出了一種基於高通圖卷積網絡 (HP-GCN) 的新型圖異常檢測方法,通過分離學習孤立節點和連通子圖中的節點,並利用高通濾波器放大異常節點的高頻特徵,從而提高了在節點分佈不均勻和異常節點稀疏的圖中檢測異常的能力。
บทคัดย่อ
文獻摘要
本研究論文提出了一種名為高通圖卷積網絡 (HP-GCN) 的新型圖異常檢測方法。該方法旨在解決圖異常檢測中普遍存在的節點分佈不均勻和異常節點稀疏的問題。
研究背景
圖異常檢測旨在識別圖數據中與大多數節點顯著不同的異常節點。現有的基於圖神經網絡 (GNN) 的方法通常依賴於圖的局部平滑性原則,但這種方法在處理異常節點稀疏且分佈不均勻的情況下效果不佳。
HP-GCN 方法
HP-GCN 方法利用高通濾波器來放大異常節點的高頻特徵,從而提高檢測靈敏度。該方法首先將圖分割成孤立節點和連通子圖。然後,使用 ChebConv 模型對連通子圖應用高通濾波。對於孤立節點,則使用多層感知器 (MLP) 學習其特徵表示。最後,將兩組節點的表示合併,並使用另一個 MLP 預測節點類別。
實驗結果
論文在四個大型真實世界數據集(YelpChi、Amazon、T-Finance 和 T-Social)上對 HP-GCN 方法進行了評估。實驗結果表明,HP-GCN 在所有四個數據集上均優於現有的圖異常檢測方法。
主要貢獻
本研究的主要貢獻包括:
- 提出了一種基於高通濾波器的圖卷積網絡模型,用於增強異常節點的判別特徵。
- 提出了一種結合 GNN 和 MLP 的方法,用於學習孤立節點和小型連通組件中的節點特徵。
優點
與現有方法相比,HP-GCN 方法具有以下優點:
- 能夠有效檢測稀疏和分佈不均勻的異常節點。
- 適用於具有大量孤立節點的圖。
- 在大型圖數據集上具有良好的可擴展性。
局限性
- 模型性能受高通濾波器參數 K 的影響。
- 對於具有複雜結構的圖,模型訓練時間較長。
未来方向
- 研究自適應選擇高通濾波器參數 K 的方法。
- 探索更有效的孤立節點特徵學習方法。
สถิติ
YelpChi 數據集包含 45,954 個節點,其中 22,123 個是孤立節點。
Amazon 數據集的異常節點與正常節點的比例為 1:10.5。
T-Finance 數據集的異常節點與正常節點的比例為 1:21.8。
T-Social 數據集的異常節點與正常節點的比例為 1:33.2,包含超過 500 萬個節點。
在 T-Finance 數據集上,當 K 設定為 2 且訓練比例為 40% 時,F1-Macro 和 AUC 分別達到最大值 91.29% 和 96.69%。
在 T-Social 數據集上,當 K 設定為 6 且訓練比例為 40% 時,F1-Macro 和 AUC 分別達到最大值 94.93% 和 98.94%。
คำพูด
“在圖異常檢測問題中,由於異常節點與正常節點相比數量稀少,異常節點通常嵌入在正常節點網絡中。”
“這些節點無法使用圖神經網絡方法有效地學習特徵表示。”
“高通濾波器可以有效地保留或增強高頻分量,從而增強異常節點的獨特性。”