Core Concepts
OmniMatchは、表形式データリポジトリ内の列間の等値結合(equi-join)と類似結合(fuzzy-join)を効果的に発見する自己教師型の手法である。メタデータの有無に関わらず、グラフニューラルネットワークを用いて列間の類似性を統合的に捉え、結合関係を高精度で発見する。
Abstract
本論文では、表形式データリポジトリ内の列間結合関係を効果的に発見するOmniMatchという手法を提案している。
OmniMatchは以下の特徴を持つ:
等値結合(equi-join)と類似結合(fuzzy-join)の両方を発見可能
メタデータの有無に関わらず高精度に結合関係を発見可能
列間の類似性を表すさまざまな指標を統合的に活用し、グラフニューラルネットワークを用いて列間の関係性を学習
自己教師型のアプローチで正例と負例のデータを自動生成し、結合関係の予測モデルを訓練
具体的な手順は以下の通り:
入力データリポジトリから派生させた正例と負例のデータペアを用いて、列間の類似性指標を計算し、類似性グラフを構築する
構築したグラフに基づいて、関係的グラフ畳み込みネットワーク(RGCN)を用いて列の表現を学習し、結合関係の予測モデルを訓練する
学習済みの予測モデルを用いて、元のデータリポジトリ内の列間結合関係を推定する
実験の結果、OmniMatchは既存の列マッチングや表形式データ発見手法と比べて、F1スコアとPR-AUCで最大14%高い性能を示した。
Stats
等値結合(equi-join)の数は1451個、類似結合(fuzzy-join)の数は128個
表形式データリポジトリには110個のテーブルと703個の列が含まれる