Conceitos Básicos
外部テーブルとの結合における真の相互情報を効果的に推定するためのスケッチング手法の提案と評価。
Resumo
データ増強における外部テーブルの発見は時間がかかる。
相関ベースデータ探索を超えて、相互情報(MI)を使用した一般的な統計依存性測定が望ましい。
MI推定は有限データサンプルからの課題であり、既存の手法は離散カテゴリカルまたは連続数値データしか扱わない。
新しいスケッチング手法TUPSKは均一なサンプリング確率を提供し、LV2SKよりもバイアスが低く精度が高い。
Estatísticas
既存手法は離散カテゴリカルまたは連続数値データしか扱わない。
TUPSKは均一なサンプリング確率を提供し、バイアスが低く精度が高い。
Citações
"Our increasing ability to collect and store data has led to an explosion of data repositories, both for open and enterprise data."
"Ideally, we would like to use a more general measure of statistical dependence, such as Mutual Information (MI), which is invariant under homomorphism."