Core Concepts
그래프 데이터 프로파일링을 위해 그래프 생성 종속성(GGD)을 자동으로 발견하는 GGDMiner 프레임워크를 제안한다. GGDMiner는 그래프 데이터의 구조와 속성 간 상관관계를 설명할 수 있는 GGD 집합을 발견한다.
Abstract
이 논문은 그래프 데이터 프로파일링을 위한 GGD 자동 발견 프레임워크 GGDMiner를 제안한다.
전처리 단계:
그래프 데이터에서 자주 나타나는 노드/엣지 레이블과 속성 쌍을 선별한다.
속성 유사도 인덱스를 구축한다.
후보 생성 단계:
그래프 패턴 마이닝 알고리즘과 유사도 인덱스를 사용하여 그래프 패턴과 차이 제약조건 후보를 생성한다.
격자 구조를 사용하여 수직 확장과 수평 확장을 통해 후보를 생성한다.
각 후보의 지지도가 임계값 이상인 경우 후보 인덱스에 추가한다.
GGD 추출 단계:
후보 인덱스를 탐색하여 GGD 후보 쌍을 식별한다.
각 GGD 후보 쌍의 신뢰도가 임계값 이상인 경우 GGD로 추출한다.
GGD 간 유사도를 측정하여 유사한 GGD를 제거한다.
이 프레임워크는 그래프 패턴 쿼리 최적화 기법인 답변 그래프를 활용하여 메모리 사용량과 실행 시간을 크게 개선했다. 실험 결과, 발견된 GGD 집합이 그래프 데이터의 스키마 수준 정보와 그래프 패턴 간 상관관계를 잘 설명할 수 있음을 보여준다.
Stats
그래프 데이터에서 자주 나타나는 노드/엣지 레이블은 다음과 같다:
Product, Manufacturer, Store, supplier
produced_by, sold_by, supplier