核心概念
Swipeアルゴリズムは、属性パーティションの構築と優先度修復モデルを組み合わせることで、機能的依存性違反を効率的に修復する。
要約
本論文では、機能的依存性(FD)の修復問題を扱う。入力データベースを修正して全てのFDを満たし、元のデータベースとの差異を最小化する問題である。値更新を許可する場合、最適な修復を見つけるのはNP困難である。
Chaseツリーを構築するアプローチは、FD違反を1つずつ解決し、リーフノードが修復案を表すものである。Chaseツリーの分岐率を制御することで、修復の質と計算効率のトレードオフを調整できる。
本論文では、Chaseツリーが単一のパスのみを持つ極端なバリアントを探る。まず、属性をクラスごとに順次修復できるようなパーティションを構築する。各クラスは1度だけ修復し、FDの修復順序を固定する。これを優先度修復と呼ぶ。
属性パーティションと優先度修復を組み合わせたSwipeアルゴリズムを提案する。4つの実データセットで実験した結果、SwipeはマルチシーケンスのChaseベースアプローチに比べて1〜3桁高速であり、修復の質も同等以上であることが示された。また、Swipeアルゴリズムのスケーラビリティ分析も行った。
統計
修復に必要な変更の数は6個である。
修復後の#providerの値は10006と1003xである。
引用
"最適な修復を見つけるのはNP困難である。"
"Chaseツリーの分岐率を制御することで、修復の質と計算効率のトレードオフを調整できる。"