핵심 개념
본 논문에서는 그래프의 오일러 크기 호몰로지를 계산하는 효율적인 알고리즘을 제시하고, 이를 통해 그래프의 부분 구조, 특히 근 클리크(near-clique)를 특징짓는 문제의 계산 복잡도를 다룹니다.
초록
오일러 크기 호몰로지 계산: 그래프 부분 구조 분석을 위한 새로운 알고리즘
본 논문은 그래프의 오일러 크기 호몰로지를 계산하는 효율적인 알고리즘을 제시하고, 이를 통해 그래프의 부분 구조, 특히 근 클리크(near-clique)를 특징짓는 문제의 계산 복잡도를 다룹니다. 그래프는 복잡한 관계를 모델링하고 분석하는 데 다양한 분야에서 사용되며, 그래프 분석에서 흥미롭고 관련성 있는 부분 구조를 찾는 것은 표준적인 절차입니다. 특히, 클리크 및 클리크와 유사한 부분 그래프의 탐지는 소셜 네트워크의 커뮤니티 탐지, 뉴스의 실시간 스토리 식별, 그래프 시각화 등 여러 분야에서 활용됩니다.
문제 제기
실제 데이터에는 노이즈가 존재하기 때문에, 완벽한 클리크뿐만 아니라 작은 부분 그래프가 부족한 큰 "근 클리크"에도 관심을 가집니다. 불완전한 클리크는 단백질-단백질 상호 작용 네트워크에서 누락된 쌍별 상호 작용을 예측하고 기능적 그룹을 식별하는 데 사용되었습니다. 또한 커뮤니티 탐지 및 테스트 공모 적발에도 활용되었습니다. 최근 연구에서는 근 클리크 대 k-클리크의 비율을 사용하여 고차 클러스터링 계수의 변형을 정의했습니다.
오일러 크기 호몰로지
본 연구에서는 이러한 구조를 정량적으로 특성화하기 위해 대수적 토폴로지 분야에서 비롯된 도구인 오일러 크기 호몰로지를 계산하는 효율적인 알고리즘을 제안합니다. 크기는 거리 공간의 등거리 불변량으로, 수학의 여러 분야에서 중요한 "크기와 유사한" 양과의 연관성 때문에 이렇게 명명되었습니다. Leinster에 의해 정의되고 처음 연구된 크기는 풍부한 범주의 크기에 대한 일반적인 이론의 특수한 경우이며, 생물 다양성과 같은 분야에서 응용 프로그램을 찾았습니다. 유한 그래프는 자연스럽게 유한 거리 공간을 생성하므로 그래프와 크기를 연결할 수 있습니다. 크기 호몰로지는 Hepworth와 Willerton에 의해 그래프 거리를 갖춘 그래프의 크기를 풍부하게 하기 위해 고안되었습니다. 그래프의 크기 호몰로지는 최근 몇 년 동안 잘 연구되었으며 풍부한 불변량임이 입증되었습니다.
계산 복잡도
오일러 크기 호몰로지 그룹 EMHk,k(G)의 순위를 계산하는 것은 G의 특정 패밀리 H에 속하는 부분 그래프를 열거하는 것과 같습니다. 이 문제를 부분 그래프 동형 문제라고 하며 계산 복잡도를 연구하는 광범위한 문헌이 있습니다. 예를 들어, 고정된 단순 그래프 G에 대해 다른 그래프 H에서 G로의 동형이 존재하는지 여부를 묻는 문제는 G가 이분 그래프인 경우 다항식 시간 내에 해결할 수 있고 G가 이분 그래프가 아닌 경우 NP-완전임이 [22]에서 밝혀졌습니다. 또한 Dyer와 Greenhill의 연구 [13]에서는 G가 고립된 정점, 모든 루프가 있는 완전 그래프, 루프가 없는 완전 이분 그래프 또는 이러한 그래프의 분리된 합집합인 경우에만 다항식 시간 내에 해결할 수 있는 경우가 발생한다는 것을 증명합니다. 또한 [3]에서 Amini, Fomin, Saurabh는 부분 그래프 계산을 그래프 동형 계산과 연관시킵니다. 그들은 여러 문제에 대한 정확한 알고리즘(고정 그래프를 마이너로 제외한 n개의 정점에 대한 그래프의 최적 대역폭 순열 수 계산, 고정 그래프 M을 마이너로 제외한 모든 부분 그래프 계산, 주어진 최대 차수를 가진 모든 부분 트리 계산)를 제공하며 모두 시간 내에 해결할 수 있습니다. 적어도 2O(n).
제안하는 알고리즘
본 논문에서는 문제가 #W[1] 복잡도 클래스에 대해 완전하다는 것을 보여줌으로써 문제의 본질적인 어려움을 증명합니다. 그런 다음 이 계산 문제를 해결하고 그래프 G의 첫 번째 대각선 오일러 크기 호몰로지 그룹 EMHk,k(G)를 계산하는 너비 우선 검색 기반 접근 방식을 제안합니다. 이는 정의에 직접 의존하는 것보다 계산적으로 더 효율적인 알고리즘을 생성합니다. 실제로 최악의 경우에도 여전히 기하급수적인 계산 복잡도를 가지고 있지만 섹션 4.2에서 보여주듯이 실제 시나리오에서 발생하는 많은 그래프의 경우 복잡도는 지수 이하이거나 다항식입니다.