Kernkonzepte
データの品質が低い場合、等価性テストは重要な問題となる。我々は、属性レベルでの比較可能性関数と抽象的な格子を用いて、等価性の異なる意味を宣言的に指定できる新しい枠組みを提案する。この枠組みを機能的依存関係に適用し、可能な/確実な機能的依存関係の概念を導入する。
Zusammenfassung
本論文では、データの品質が低い場合の等価性テストの問題に取り組んでいる。提案する枠組みでは、属性レベルで比較可能性関数と抽象的な格子を定義することで、等価性の異なる意味を宣言的に指定できる。
まず、属性ごとに比較可能性関数を定義し、抽象的な格子を構築する。これにより、2つのタプルの比較結果は抽象的なタプルとして表現される。次に、解釈関数を定義し、抽象的なタプルを0または1に変換することで、等価性の意味を指定する。
この枠組みを機能的依存関係に適用する。抽象的な機能的依存関係を定義し、現実的な解釈(realities)と呼ばれる特別な解釈を導入する。現実的な解釈は、抽象的な格子を閉包システムに変換する。
さらに、可能な/確実な機能的依存関係の概念を提案する。ある機能的依存関係が可能であるとは、少なくとも1つの現実的な解釈の下で成り立つことを意味する。一方、確実であるとは、全ての現実的な解釈の下で成り立つことを意味する。これらの概念に関する複雑性結果も示している。
Statistiken
2つのタプルt1, t4の比較結果は、fR(t1, t4) = ⟨dA, e, c⟩である。
解釈g1の下では、t1とt4は等しくない(g1(⟨dA, e, c⟩) = ⟨0, 1, 1⟩)。
解釈g3の下では、t1とt4は等しい(g3(⟨dA, e, c⟩) = ⟨1, 1, 1⟩)。
Zitate
"データの品質が(非常に)しばしば低いため、等価性テストはデータ品質の問題に対処するためにさらに重要になる。"
"ドメイン専門家のみが、自分のデータ上の「等価性」の正確な意味を指定できる。"
"我々のアプローチは、データを変更せずに、専門家の知識に基づいて等価性の意味を宣言的に指定することができる。"