核心概念
그래프 신경망을 활용하여 소셜 네트워크에서 타겟 노드를 효율적으로 수집할 수 있다.
要約
이 논문에서는 소셜 네트워크에서 타겟 노드를 수집하는 문제를 다룹니다. 타겟 노드는 관심 있는 모든 노드를 의미하며, 예를 들어 영향력 있는 사람, 잠재적인 직원, SUV 팬 등이 될 수 있습니다. 저자들은 그래프 신경망(GNN) 모델을 활용하여 타겟 노드를 예측하는 방법을 제안합니다.
주요 내용은 다음과 같습니다:
- 타겟 노드 집합의 3가지 유형(하나의 밀집된 부분 그래프, 여러 개의 밀집된 부분 그래프, 전체 그래프에 균일하게 분포)을 고려하였습니다.
- GNN 모델(GCN, SAGE, GAT)과 전통적인 분류기(XGB, RF, KNN, SVC)를 비교하였습니다.
- 크롤링 과정에서 관찰된 그래프를 활용하여 모델을 반복적으로 학습시키는 샘플 부스팅 기법을 제안하였습니다.
- 실험 결과, GNN 모델이 전통적인 분류기에 비해 전반적으로 더 나은 성능을 보였습니다. 특히 타겟 노드가 분산되어 있는 경우 GNN의 장점이 두드러졌습니다.
統計
소셜 네트워크에서 타겟 노드를 수집하는 데 있어 제한된 질의 예산 내에서 최대한 많은 타겟 노드를 수집하는 것이 목표이다.
실험에 사용된 데이터셋은 총 18개로, 타겟 노드 집합의 유형에 따라 3가지 유형으로 구분된다.
각 데이터셋의 노드 수는 1.15K~4M 개 수준이며, 타겟 노드의 비율은 0.04%~72% 수준이다.
引用
"소셜 네트워크 크롤링은 최근 몇 년간 활발한 연구 주제이다. 가장 도전적인 과제 중 하나는 초기에 알려지지 않은 그래프에서 주어진 크롤링 예산 내에서 타겟 노드를 수집하는 것이다."
"부분적으로 알려진 이웃을 기반으로 노드 속성을 예측하는 것이 성공적인 크롤러의 핵심이다."