핵심 개념
OmniMatch는 그래프 신경망을 활용하여 테이블 데이터의 다양한 유사성 신호를 통합하고 전파함으로써 기존 방법보다 효과적으로 등가 조인과 퍼지 조인을 발견할 수 있습니다.
초록
이 논문은 테이블 데이터 저장소에서 효과적으로 조인 관계를 발견하는 OmniMatch 기법을 제안합니다.
OmniMatch는 그래프 신경망을 활용하여 다양한 유사성 신호(자카드 유사도, 토큰 유사도, 포함도, 임베딩 유사도, 분포 유사도 등)를 통합하고 전파함으로써 등가 조인과 퍼지 조인을 효과적으로 발견할 수 있습니다.
기존 방법들은 유사성 임계값에 의존하거나 메타데이터에 의존하는 한계가 있었지만, OmniMatch는 이러한 의존성 없이 자동으로 조인 관계를 발견할 수 있습니다.
OmniMatch는 자동으로 생성된 긍정/부정 조인 예제를 활용하여 자기 지도 학습 방식으로 조인 예측 모델을 학습합니다.
실험 결과, OmniMatch는 기존 최신 방법들보다 최대 14% 더 높은 F1 점수와 AUC 성능을 보였습니다.
통계
데이터 저장소에는 110개의 테이블(703개 컬럼)과 120개의 테이블(687개 컬럼)이 포함되어 있습니다.
이 데이터셋에는 1451개의 등가 조인과 384개의 퍼지 조인이 존재합니다.
인용구
"OmniMatch는 그래프 신경망을 활용하여 다양한 유사성 신호를 통합하고 전파함으로써 기존 방법보다 효과적으로 등가 조인과 퍼지 조인을 발견할 수 있습니다."
"기존 방법들은 유사성 임계값에 의존하거나 메타데이터에 의존하는 한계가 있었지만, OmniMatch는 이러한 의존성 없이 자동으로 조인 관계를 발견할 수 있습니다."