核心概念
Data-dependent LSH improves EMD approximation by a quadratic factor.
摘要
新しいデータ依存型の局所性鋭敏ハッシングスキーム(LSH)が、地球移動者距離(EMD)の最良近似を二次的に向上させます。これにより、EMD下での最近傍探索の近似が改善されます。以前は、Andoni、Indyk、Krauthgamerは、EMDs(Rd、ℓp)用の(データ非依存型)局所性鋭敏ハッシングスキームを提供していました。しかし、データ依存型であることで近似度を˜O(log s)に向上させました。主な技術的貢献は、任意の分布µに対して密な領域用のデータ依存型LSHを示すことです。また、データ非依存型LSHは実際にはそれらの密な領域外でも˜O(log s)近似度を達成します。
この研究では、「接点」や「サンプルツリー」と呼ばれる新しいアルゴリズム的原始が導入されています。これらのデータ依存型ハッシュファミリーは地球移動者距離における最適な(分布的)スケッチも提供します。これにより、既知のスケッチング下限から得られる結果からわかるように、このLSHは定数確率で近い点が衝突する中で最適です。
統計資料
EMD(x, y) = min π : [s]→[s] bijection Σi=1n dX(xi, yπ(i))
Previously: Andoni, Indyk, Krauthgamer - O(log2 s) approximation for EMDs(Rd, ℓp)
Improved: Data-dependent LSH - ˜O(log s) approximation outside dense regions
引述
"Data-dependent LSH improves the approximation to ˜O(log s)."
"Our LSH is optimal among those that collide close points with constant probability."
"SampleTree embedding gives a ˜O(log s) approximation for sketches of EMD."