本研究では、大規模疎なネットワークにおけるコミュニティ抽出の課題に取り組んでいる。ネットワークデータセットが急速に拡大する中、メモリ制限により疎なネットワークが生み出されることが多い。これらの疎なネットワークには、隣接エッジのないノードや、互いに接続されていない分離コンポーネントが多数存在する。
コミュニティ抽出は重要な課題の1つであるが、既存の手法には課題がある。階層的クラスタリングやk-meansは、ユークリッド空間を前提としており、非球形のクラスタに適さない。モジュラリティは、この課題を解決したが、シングルトンクラスタやダブルトンクラスタに対して偏りがある。
そこで本研究では、2段階のアプローチを提案する。まず、幅優先探索を用いて分離コンポーネントを効率的に特定する。次に、新しい目的関数Sを用いてコンポーネント内のクラスタリングを最適化する。Sは、ローカルなノード数に基づいて設計されており、シングルトンやダブルトンクラスタに対する偏りを軽減できる。
シミュレーションデータ、ベンチマークデータ、実際の生物学的ネットワークデータを用いた評価から、提案手法が既存手法よりも高精度にコミュニティを抽出できることが示された。特に、ノイズの多いネットワークにおいて、その優位性が顕著であった。また、実際のデータでは、モジュラリティではうまくクラスタリングできなかった部分を、提案手法が適切に分割できることが確認された。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen