Der Artikel befasst sich mit der Herausforderung, relevante externe Tabellen für die relationale Datenergänzung effizient zu identifizieren. Bestehende Ansätze, die auf Überlappung oder Enthaltensein basieren, führen oft zu einer großen Anzahl irrelevanter Tabellen, deren Verarbeitung rechenintensiv ist.
Der Artikel schlägt stattdessen die Verwendung einer effizienten Schätzung der gegenseitigen Information (Mutual Information, MI) vor, um relevante Tabellen zu finden. Dafür wird eine neue Sketch-Methode eingeführt, die eine effiziente Auswertung von Beziehungsabfragen ermöglicht, indem MI ohne Materialisierung der Joins geschätzt und eine kleinere Menge relevanterer Tabellen zurückgegeben wird.
Die Autoren demonstrieren die Effektivität ihres Ansatzes zur Approximation von MI anhand umfangreicher Experimente mit synthetischen und realen Datensätzen. Dabei werden die Herausforderungen bei der MI-Schätzung über Joins, insbesondere im Hinblick auf wiederholte Werte in Schlüsselattributen, adressiert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Aéci... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15553.pdfDomande più approfondite