Core Concepts
OmniMatch ist eine neuartige selbstüberwachte Methode, die Equi-Joins und Fuzzy-Joins zwischen Spalten durch Kombination von Spaltenpaar-Ähnlichkeitsmaßen mit Graphischen Neuronalen Netzen (GNNs) effektiv erkennt. OmniMatch erzielt bis zu 14% höhere Effektivität in F1-Wert und AUC im Vergleich zum Stand der Technik, ohne auf Metadaten oder vom Benutzer bereitgestellte Schwellenwerte angewiesen zu sein.
Abstract
OmniMatch ist eine neuartige selbstüberwachte Methode zur Entdeckung von Joins zwischen Spalten in Tabellendaten-Repositorys. Im Gegensatz zu herkömmlichen Methoden, die hauptsächlich auf Ähnlichkeitsmaßen basieren, die auf exakten Wertüberlappungen basieren, kombiniert OmniMatch verschiedene Ähnlichkeitssignale wie Jaccard-Ähnlichkeit, Werteverteilungsähnlichkeit und Einbettungsähnlichkeit, um sowohl Equi-Joins als auch Fuzzy-Joins zu erkennen.
OmniMatch konstruiert einen Ähnlichkeitsgraphen, in dem Spalten als Knoten und Ähnlichkeitsbeziehungen als Kanten dargestellt werden. Durch den Einsatz von Relational Graph Convolutional Networks (RGCNs) kann OmniMatch die Nachbarschaftsinformationen im Graphen nutzen, um indirekte Join-Beziehungen zu entdecken, die mit herkömmlichen Ähnlichkeitsmaßen übersehen würden. Außerdem generiert OmniMatch automatisch positive und negative Join-Beispiele, um das Modell selbstüberwacht zu trainieren, ohne auf manuell gekennzeichnete Daten angewiesen zu sein.
Im Vergleich zu anderen Methoden erzielt OmniMatch eine um bis zu 14% höhere Effektivität in Bezug auf F1-Wert und AUC bei der Erkennung von Joins in realen Datensätzen, ohne auf Metadaten oder vom Benutzer bereitgestellte Schwellenwerte angewiesen zu sein.
Stats
Die Jaccard-Ähnlichkeit zwischen den Spalten "Cntry" und "CNTR" beträgt 0,33.
Die Werteüberlappung (Set Containment) zwischen den Spalten "Cntry" und "CNTR" beträgt 0,5.
Quotes
Keine relevanten Zitate gefunden.