Der Artikel befasst sich mit der Herausforderung, relevante externe Tabellen für die relationale Datenergänzung effizient zu identifizieren. Bestehende Ansätze, die auf Überlappung oder Enthaltensein basieren, führen oft zu einer großen Anzahl irrelevanter Tabellen, deren Verarbeitung rechenintensiv ist.
Der Artikel schlägt stattdessen die Verwendung einer effizienten Schätzung der gegenseitigen Information (Mutual Information, MI) vor, um relevante Tabellen zu finden. Dafür wird eine neue Sketch-Methode eingeführt, die eine effiziente Auswertung von Beziehungsabfragen ermöglicht, indem MI ohne Materialisierung der Joins geschätzt und eine kleinere Menge relevanterer Tabellen zurückgegeben wird.
Die Autoren demonstrieren die Effektivität ihres Ansatzes zur Approximation von MI anhand umfangreicher Experimente mit synthetischen und realen Datensätzen. Dabei werden die Herausforderungen bei der MI-Schätzung über Joins, insbesondere im Hinblick auf wiederholte Werte in Schlüsselattributen, adressiert.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Aéci... lúc arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15553.pdfYêu cầu sâu hơn