核心概念
外部テーブルとの結合における真の相互情報を効果的に推定するためのスケッチング手法の提案と評価。
統計
既存手法は離散カテゴリカルまたは連続数値データしか扱わない。
TUPSKは均一なサンプリング確率を提供し、バイアスが低く精度が高い。
引用
"Our increasing ability to collect and store data has led to an explosion of data repositories, both for open and enterprise data."
"Ideally, we would like to use a more general measure of statistical dependence, such as Mutual Information (MI), which is invariant under homomorphism."