Core Concepts
본 논문은 기존 근사 그래프 패턴 마이닝 시스템의 두 가지 주요 한계점을 해결하고, 이를 통해 정확하고 빠른 대규모 근사 그래프 패턴 마이닝을 달성한다.
Abstract
본 논문은 근사 그래프 패턴 마이닝(A-GPM) 시스템의 두 가지 주요 한계점을 해결하는 방법을 제안한다.
기존 시스템의 종료 메커니즘은 이론적 근거가 부족하고 불안정하여 느린 성능을 보였다. 이를 해결하기 위해 온라인 수렴 탐지 기법을 제안하였다. 이 기법은 샘플링 도중 통계를 수집하여 오차를 예측하고, 오차 한계 이하로 떨어지면 종료한다. 이를 통해 이론적 신뢰도를 보장하면서 안정적이고 빠른 종료가 가능하다.
기존 시스템은 희소 그래프에서 매우 낮은 히트율로 인해 성능이 크게 저하되었다. 이를 해결하기 위해 eager-verify 기법을 제안하였다. 이 기법은 유망하지 않은 후보를 조기에 제거하여 히트율을 크게 향상시킨다. 또한 hybrid 샘플링 기법을 통해 그래프와 패턴의 특성에 따라 더 나은 성능의 샘플링 기법을 자동으로 선택한다.
이러한 기법들을 통합한 ScaleGPM 시스템은 기존 최신 시스템 대비 평균 565배(최대 610,169배) 빠른 성능을 보였다. 특히 억 단위 규모의 그래프를 수 초 내에 처리할 수 있었다.
Stats
기존 시스템 대비 평균 565배(최대 610,169배) 빠른 성능
억 단위 규모의 그래프를 수 초 내에 처리 가능
Quotes
"ScaleGPM 시스템은 기존 최신 시스템 대비 평균 565배(최대 610,169배) 빠른 성능을 보였다."
"특히 억 단위 규모의 그래프를 수 초 내에 처리할 수 있었다."