核心概念
グラフデータプロファイリングのために、グラフデータから近似的なグラフ生成依存関係を自動的に発見する。
要約
本論文では、グラフデータプロファイリングのためのグラフ生成依存関係(GGD)の自動発見フレームワークGGDMinerを提案する。GGDは、プロパティグラフ上の異なるグラフパターンの関係と属性の類似性を表現できる依存関係である。
GGDMinerは以下の3つのステップから構成される:
- 前処理: グラフデータの重要な部分を抽出し、属性の類似性を計算するためのインデックスを構築する。
- 候補生成: グラフパターンと属性の差分制約の候補を生成する。格子構造を使ってグラフパターンを垂直方向に拡張し、属性の差分制約を水平方向に拡張する。
- GGD抽出: 候補インデックスを探索し、支持度と信頼度の条件を満たすGGDを抽出する。GGDの類似性も考慮する。
GGDMinerでは、グラフパターンのマッチングを効率的に表現するためにAnswer Graphを使用する。これにより、メモリ消費と実行時間を大幅に改善できる。
発見されたGGDセットは、グラフデータのスキーマ情報や属性間の相関関係を示すことができ、ユーザにグラフデータの概要を提供する。
統計
著者が参加したプロジェクトで、論文の助成金番号とプロジェクト番号が類似している場合、その論文に関連するレポートノードが存在する。
著者が書いた論文が、出版ジャーナルに掲載されており、論文のベニューと雑誌名が類似し、論文キーワードとジャーナルトピックも類似している場合、論文ノードとジャーナルノードの間に"appeared_in"ラベルの辺が存在する。
同じ大学に所属し、名前と姓が類似している著者ノード間には"same_as"ラベルの辺が存在する。
引用
"GGDは、プロパティグラフ上の異なるグラフパターンの関係と属性の類似性を表現できる依存関係である。"
"GGDMinerは、グラフデータプロファイリングのためにグラフデータから近似的なGGDを自動的に発見するフレームワークである。"
"GGDMinerでは、グラフパターンのマッチングを効率的に表現するためにAnswer Graphを使用する。これにより、メモリ消費と実行時間を大幅に改善できる。"