Concepts de base
MIRAGE는 메시지 전달 GNN이 입력 그래프를 계산 트리의 다중 집합으로 분해한다는 통찰을 활용하여, 이 계산 트리의 빈도 분포가 종종 편향되어 있음을 이용하여 간단한 증류 프로세스를 통해 데이터를 압축합니다. 이를 통해 MIRAGE는 기존 그래프 증류 알고리즘의 한계를 극복하고 모델 독립적이며 효율적인 증류 기법을 제공합니다.
Résumé
MIRAGE는 그래프 분류를 위한 새로운 모델 독립적 데이터 증류 알고리즘입니다. 기존 그래프 증류 알고리즘은 원본 학습 데이터의 gradient 궤적을 모방하는 데 의존하지만, 이는 증류 프로세스 자체가 전체 데이터셋 학습을 필요로 하여 증류의 근본 취지를 훼손합니다. 또한 이는 특정 GNN 아키텍처와 하이퍼파라미터에 의존적이어서 모델링 파이프라인 변경에 취약합니다.
MIRAGE는 이러한 한계를 극복하기 위해 메시지 전달 GNN이 입력 그래프를 계산 트리의 다중 집합으로 분해한다는 통찰을 활용합니다. 이 계산 트리의 빈도 분포가 종종 편향되어 있음을 관찰하고, 이를 이용하여 자주 공동 발생하는 계산 트리 집합을 추출하여 이를 통해 GNN을 학습합니다. 이를 통해 MIRAGE는 모델 아키텍처와 하이퍼파라미터에 독립적이며 효율적인 증류 기법을 제공합니다.
실험 결과, MIRAGE는 기존 최신 그래프 증류 알고리즘 대비 평균 정확도, 데이터 압축률, 증류 효율 면에서 모두 우수한 성능을 보였습니다. 특히 MIRAGE는 기존 알고리즘 대비 4-5배 더 높은 데이터 압축률과 150배 더 빠른 증류 속도를 달성했습니다.
Stats
그래프 데이터셋의 계산 트리 분포는 종종 거듭제곱 법칙을 따르는 편향된 분포를 보인다.
이러한 편향된 분포를 활용하면 상위 k개의 자주 발생하는 계산 트리만으로도 그래프 표현을 잘 근사할 수 있다.
Citations
"GNNs, like other deep learning models, are data and computation hungry. There is a pressing need to scale training of GNNs on large datasets to enable their usage on low-resource environments."
"Existing graph distillation algorithms themselves rely on training with the full dataset, which undermines the very premise of graph distillation."
"MIRAGE exploits the insight that given a graph, an ℓ-layered message-passing GNNs decomposes the graph into a set of computation trees of depth ℓ."