Core Concepts
희소 레이블 데이터 환경에서 그래프 신경망의 성능을 향상시키기 위해, 다중 뷰 서브그래프 표현을 활용한 자기 지도 학습 프레임워크를 제안한다.
Abstract
이 논문은 그래프 신경망(GNN)이 그래프 기반 노드 분류 문제에서 표준 모델로 자리잡았지만, 충분한 레이블 데이터가 필요하다는 한계를 지적한다. 특히 레이블 데이터가 부족한 경우, 레이블 노드의 특징만으로는 무레이블 노드에 대한 충분한 감독 신호를 제공하지 못해 심각한 과적합이 발생한다.
이를 해결하기 위해 논문은 서브그래프를 활용한 자기 지도 학습 프레임워크 Muse를 제안한다. Muse는 입력 공간과 잠재 공간에서 각각 서브그래프를 추출하여, 지역 구조와 장거리 의존성을 모두 포착한다. 이를 통해 레이블 노드의 표현력을 극대화하여 희소 레이블 환경에서의 노드 분류 성능을 향상시킨다.
구체적으로 Muse는 다음과 같은 과정으로 구성된다:
원래 그래프와 잠재 그래프를 구성하여 각각의 임베딩을 추출한다.
정보 이론 기반 메커니즘을 통해 두 뷰의 서브그래프를 식별한다. 입력 공간의 서브그래프는 지역 구조를, 잠재 공간의 서브그래프는 장거리 의존성을 포착한다.
서브그래프 표현과 노드 임베딩을 융합하여 데이터 증강을 수행한다.
서로 다른 임베딩 간의 유사도를 활용한 프로토타입 손실을 정의하여 모델을 학습한다.
실험 결과, Muse는 희소 레이블 환경에서 다른 방법들보다 우수한 노드 분류 성능을 보였다. 또한 다양한 분석을 통해 Muse의 각 구성 요소가 성능 향상에 기여함을 확인하였다.
Stats
레이블이 1개씩 있는 경우, Muse는 Cora 데이터셋에서 60.2%, Citeseer 데이터셋에서 50.2%, Pubmed 데이터셋에서 60.5%, BlogCatalog 데이터셋에서 41.3%의 정확도를 달성했다.
레이블이 2개씩 있는 경우, Muse는 Cora 데이터셋에서 67.0%, Citeseer 데이터셋에서 62.5%, Pubmed 데이터셋에서 66.9%, BlogCatalog 데이터셋에서 45.9%의 정확도를 달성했다.
레이블이 5개씩 있는 경우, Muse는 Cora 데이터셋에서 71.0%, Citeseer 데이터셋에서 64.8%, Pubmed 데이터셋에서 68.9%, BlogCatalog 데이터셋에서 60.7%의 정확도를 달성했다.
Quotes
"희소 레이블 데이터 환경에서 GNN의 성능이 제한되는 이유는 레이블 노드의 특징만으로는 무레이블 노드에 대한 충분한 감독 신호를 제공하지 못하기 때문이다."
"서브그래프를 활용하면 레이블 노드의 표현력을 높일 수 있어 희소 레이블 환경에서의 성능을 향상시킬 수 있다."
"Muse는 입력 공간과 잠재 공간에서 서브그래프를 추출하여 지역 구조와 장거리 의존성을 모두 포착함으로써 레이블 노드의 표현력을 극대화한다."