核心概念
Verbesserung der Approximation für die nächstgelegene Nachbarsuche unter EMD durch datenabhängige LSH.
要約
Das Paper präsentiert neue datenabhängige LSH-Schemata für die Earth Mover's Distance (EMD) und verbessert die Approximation für die nächstgelegene Nachbarsuche unter EMD erheblich. Es zeigt, wie die Datenabhängigkeit die Approximation verbessert und optimale Skizzen für EMD ermöglicht. Die Struktur des Papers umfasst eine Einführung, Vorarbeiten, Nähe-Nachbarn, Einbettungen, datenabhängige Hashing-Techniken und Schlussfolgerungen. Es wird detailliert erläutert, wie die Verbesserung der Approximation erreicht wird und wie die Datenabhängigkeit die Effizienz der LSH-Schemata steigert.
1. Einführung
- Beschreibung des ANN-Problems und der Bedeutung in der Informatik.
2. Vorarbeiten
- Untersuchung der Approximation für EMD und bestehende LSH-Schemata.
3. Nähe-Nachbarn, Einbettungen und datenabhängiges Hashing
- Diskussion über die Bedeutung von datenabhängigem Hashing für EMD.
4. Dynamische und datenabhängige probabilistische Baum-Einbettungen
- Erklärung der Einbettung für Teilmengen des Hamming-Würfels.
5. Lokal sensitive Hash-Familie für EMD
- Reduzierung auf datenabhängiges LSH über den Hyperwürfel.
6. Schlüsselkomponenten 1 und 2: die Hash-Familie H(τ, ℓ) und lokal-dichte Punkte
- Bedeutung der Hash-Familie H(τ, ℓ) und der lokal-dichten Punkte.
7. Schlüsselkomponente 3: SampleTree und Beweis von Lemma 5.11
- Diskussion über die SampleTree-Einbettung und den Hash-Familienaufbau.
8. Datenabhängiges Hashing und Skizzierung untere Grenzen
- Erklärung des Datenabhängigen LSH für ANN: Beweis von Theorem 7.
9. Datenabhängiges LSH für ANN: Beweis von Theorem 7
- Erklärung des Beweises für das Datenabhängige LSH für ANN.
統計
Zuvor gaben Andoni, Indyk und Krauthgamer eine (datenunabhängige) lokal sensitive Hashing-Schemata für EMDs(Rd, ℓp) mit einer Approximation von O(log2 s).
Durch datenabhängige Ansätze wurde die Approximation auf ˜O(log s) verbessert.
引用
"Unsere Haupttechnische Beitrag besteht darin zu zeigen, dass für jede Verteilung µ, die auf der Metrik EMDs(Rd, ℓp) unterstützt wird, ein datenabhängiges LSH für dichte Regionen von µ existiert, das eine Approximation von ˜O(log s) erreicht."