Core Concepts
固定次数列を持つ二部ネットワークをランダムにサンプリングするための効率的なアルゴリズムを提案し、その有効性を検証した。
Abstract
本研究では、固定次数列を持つ二部ネットワークをランダムにサンプリングするための効率的なアルゴリズムを提案している。
まず、二部ネットワークのランダムサンプリングの背景を説明する。二部ネットワークは、ノードを2つのグループに分割でき、グループ間のみにエッジが存在するネットワークである。ランダムサンプリングは、観測された二部ネットワークと同じ次数列を持つ全ての二部ネットワークから、等確率でサンプルを抽出することを意味する。
提案するアルゴリズムは、「トレード」アルゴリズムと呼ばれる手法を用いる。これは、ネットワークのエッジの位置を交換することで、次数列を保ちつつランダムに変形していくものである。しかし、どの程度のエッジ交換が必要かを決めるのは難しい。
そこで本研究では、サンプルネットワークと元のネットワークの距離の分布が安定化したタイミングでアルゴリズムを停止するルールを提案する。具体的には、サンプルネットワークと元のネットワークの距離の分布の変化をKolmogorov-Smirnov検定で監視し、分布の変化が有意でなくなったタイミングで停止する。
この提案手法を335種類の次数列に適用したところ、93.2%の確率でランダムサンプルが得られることが示された。さらに、実際の生態学、社会学、政治学のデータに適用した結果、提案手法が実用的であることが確認された。
Stats
二部ネットワークの次数列が{1,1,2}、{1,1,2}の場合、全ての二部ネットワークの数(|B|)は5つである。
二部ネットワークの次数列が{1,2,3}、{1,1,2,2}の場合、全ての二部ネットワークの数(|B|)は8つである。
二部ネットワークの次数列が{2,2,3}、{1,1,1,2,2}の場合、全ての二部ネットワークの数(|B|)は31つである。
二部ネットワークの次数列が{3,3,3}、{1,1,1,2,2,2}の場合、全ての二部ネットワークの数(|B|)は93つである。
Quotes
"統計的分析を行う際、観測された二部ネットワークと同じ次数列を持つ全ての二部ネットワークからランダムにサンプリングする必要がある。"
"トレードアルゴリズムは、効率的にランダムサンプリングを行うことができるが、どの程度のトレードが必要かを決めるのは難しい。"
"提案するアルゴリズムは、サンプルネットワークと元のネットワークの距離の分布が安定化したタイミングでアルゴリズムを停止する。"