Core Concepts
그래프 구조의 중요한 특성인 허브를 고려하여 설계된 랜덤 워크 기반 그래프 임베딩 방법이 노드 분류 성능을 크게 향상시킨다.
Abstract
이 논문은 그래프 구조 데이터에 대한 기계 학습 기법 중 하나인 노드 분류 문제를 다룬다.
그래프 임베딩 기법은 그래프 구조를 벡터 공간으로 변환하여 전통적인 기계 학습 알고리즘을 적용할 수 있게 한다.
기존의 그래프 임베딩 기법은 일반적인 목적으로 설계되었지만, 이 논문에서는 노드 분류 문제에 특화된 두 가지 새로운 허브 기반 랜덤 워크 그래프 임베딩 방법을 제안한다.
제안된 방법은 랜덤 워크 샘플링 과정에서 그래프의 허브 노드에 특별한 주의를 기울인다.
실험 결과, 제안된 방법은 기존 노드2벡 기법에 비해 SVM, 랜덤 포레스트, 나이브 베이즈 분류기의 성능을 크게 향상시켰다.
허브에 대한 편향성을 강화할수록 분류 성능이 지속적으로 향상되는 것을 확인했다.
Stats
그래프의 평균 노드 차수는 2.52에서 31.13 사이이다.
그래프의 노드 차수 표준편차는 3.75에서 47.28 사이이다.
그래프의 최대 노드 차수는 17에서 1434 사이이다.
Quotes
"Real world large-scale graphs have power-law [12] or some other long-tailed distribution [13] of node degrees. Such distributions imply the presence of so-called hubs: nodes with an exceptionally large degree, much larger than the average degree."
"Although hubs have a vital role for the overall connectedness of complex networks (the so-called "robust yet fragile" property stating that the removal of a small fraction of hubs leads to an extremely fragmented network without a giant connected component [14]), they have not been seriously considered when designing algorithms for the node classification problem."