Der Artikel befasst sich mit der Herausforderung, relevante externe Tabellen für die relationale Datenergänzung effizient zu identifizieren. Bestehende Ansätze, die auf Überlappung oder Enthaltensein basieren, führen oft zu einer großen Anzahl irrelevanter Tabellen, deren Verarbeitung rechenintensiv ist.
Der Artikel schlägt stattdessen die Verwendung einer effizienten Schätzung der gegenseitigen Information (Mutual Information, MI) vor, um relevante Tabellen zu finden. Dafür wird eine neue Sketch-Methode eingeführt, die eine effiziente Auswertung von Beziehungsabfragen ermöglicht, indem MI ohne Materialisierung der Joins geschätzt und eine kleinere Menge relevanterer Tabellen zurückgegeben wird.
Die Autoren demonstrieren die Effektivität ihres Ansatzes zur Approximation von MI anhand umfangreicher Experimente mit synthetischen und realen Datensätzen. Dabei werden die Herausforderungen bei der MI-Schätzung über Joins, insbesondere im Hinblick auf wiederholte Werte in Schlüsselattributen, adressiert.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Aéci... klokken arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15553.pdfDypere Spørsmål