Core Concepts
グラフニューラルネットワークの表現力を評価する際、k-WLテストを用いることには問題がある。k-WLテストは表現力の一部しか捉えておらず、実世界のグラフタスクとも必ずしも一致しない。表現力の評価には、より適切な指標と評価方法が必要である。
Abstract
本論文は、グラフニューラルネットワーク(GNN)の表現力を評価する際に用いられるk-WLテストの信頼性と妥当性を分析している。
まず、グラフML実践者を対象にしたアンケート調査を行い、表現力の概念化と、k-WLテストに対する認識を明らかにした。実践者の間では表現力の定義が必ずしも一致しておらず、k-WLテストの有用性についても意見が分かれていることが分かった。
次に、理論的・実証的な分析を行った。k-WLテストには以下のような問題点があることが明らかになった:
等距離写像を保証しない
実世界のグラフタスクとの関連性が低い
汎化性や信頼性の向上には必ずしも寄与しない
さらに、k-WLテストには公平性、プライバシー、ロバスト性への悪影響も指摘された。
一方、ベンチマーク分析の結果、多くのグラフMLベンチマークでは1-WLで十分に非同型グラフを識別できることが分かった。つまり、k-WLの表現力が実際のタスク遂行を制限していないことが示唆された。
以上より、グラフML実践者は以下のいずれかの対応が望ましい:
k-WLが自身のタスクと整合的でない場合は、表現力の新たな評価指標を検討する
実際のタスクではk-WLが表現力を制限していない場合は、より厳格なベンチマークを構築する
表現力の評価には、タスクに応じた適切な指標と評価方法を検討することが重要である。
Stats
1-WLで識別可能な非同型グラフの割合は、ほとんどのベンチマークで90%以上に達する。
1-WLで識別可能な非同型グラフの割合が100%に近いベンチマークでは、1-WLに基づく上限精度が実際のGNN性能に近い。
Quotes
"k-WLは等距離写像を保証せず、実世界のグラフタスクとの関連性が低く、汎化性や信頼性の向上にも必ずしも寄与しない。"
"k-WLは公平性、プライバシー、ロバスト性への悪影響も指摘される。"