核心概念
有向グラフクラスタリングの問題を確率ブロックモデルの観点から捉え、最尤推定に基づくアプローチを提案する。この最尤推定フォーミュレーションは、エッジ密度と方向性の両方を考慮した新しい流れ最適化ヒューリスティックと等価であることを示す。さらに、この理論的枠組みに基づいて、効率的な有向グラフクラスタリングアルゴリズムを2つ提案する。
要約
本研究は、有向グラフクラスタリングの問題を統計的な観点から捉え、確率ブロックモデル(DSBM)に基づいて最尤推定を行うことで、観測されたグラフ構造から最も可能性の高いコミュニティ割当を推定する。
具体的には以下の通り:
DSBM に基づく最尤推定(MLE)の最適化問題を導出し、これが複素数値のヘルミート行列に関する quadratic form の最大化問題と等価であることを示す。
この MLE 問題は、エッジ密度と方向性の両方を考慮した新しい流れ最適化ヒューリスティックと等価であることを明らかにする。これにより、提案手法の柔軟性が高まり、事前の統計モデル仮定を超えて、状況に応じた重み付けを行うことができる。
MLE ベースの2つの効率的なアルゴリズムを提案する - 1つは spectral clustering アルゴリズム、もう1つは semidefinite programming (SDP) ベースのアルゴリズム。
spectral clustering アルゴリズムについて、DSBM から生成されたグラフに対する理論的な誤り上界を示す。この上界は、グラフのエッジ密度と2つのクラスタの分離度に依存する。
合成データと実データでの実験結果から、提案手法が既存手法に比べて優れた性能を示すことを確認した。
統計
平均次数Npが大きいほど、クラスタリング誤りが小さくなる。
クラスタ間エッジの向きが無秩序に近づくほど(η→0.5)、クラスタリング誤りが大きくなる。