Core Concepts
Das vorgestellte LIX-Framework ermöglicht das implizite Einbringen von räumlichem geometrischem Vorwissen, das von einem Lehrer-Modell mit Doppelencoder erlernt wurde, in ein Schüler-Modell mit Einzelencoder.
Abstract
Das Paper stellt einen Ansatz vor, um räumliches geometrisches Vorwissen, das von einem Lehrer-Modell mit Doppelencoder erlernt wurde, implizit in ein Schüler-Modell mit Einzelencoder zu übertragen. Dafür werden zwei Hauptkomponenten eingeführt:
Dynamisch gewichtete Logit-Destillation (DWLD): Hier wird der klassische Logit-Destillations-Verlust in zwei unabhängige und entkoppelte Terme aufgeteilt - den Zielklassen-Logit-Destillations-Verlust (TCLD) und den Nicht-Zielklassen-Logit-Destillations-Verlust (NCLD). Anstatt einen einzelnen festen Gewichtungsfaktor zu verwenden, wird ein dynamischer Gewichtungscontroller eingeführt, der für jeden Logit einen individuellen Gewichtungsfaktor generiert.
Adaptiv rekalibrierte Feature-Destillation (ARFD): Hier wird zunächst eine Rekalibrierung der Feature-Karten von Lehrer- und Schüler-Modell durchgeführt, um Unterschiede in Skalierung und Verteilung auszugleichen. Anschließend wird die Konsistenz der Zwischenschicht-Features zwischen Lehrer- und Schüler-Modell mithilfe von Centered Kernel Alignment (CKA) quantifiziert.
Die umfangreichen Experimente auf verschiedenen öffentlichen Datensätzen zeigen, dass das vorgestellte LIX-Framework die Leistung im Vergleich zu anderen State-of-the-Art-Ansätzen deutlich verbessert.
Stats
Die Lehrer-Modelle mit Doppelencoder, die zusätzlich zu RGB-Bildern auch räumliche geometrische Informationen (Tiefe, Disparität, Oberflächennormalen, HHA-Karten) verwenden, erreichen deutlich bessere Ergebnisse als Modelle, die nur RGB-Bilder verwenden.
Auf dem vKITTI2-Datensatz erzielt das LIX-Framework mit 95,79% mFsc, 98,23% fwFsc, 91,95% mIoU und 96,33% fwIoU die besten Ergebnisse im Vergleich zu anderen Ansätzen.
Auf dem KITTI Semantics-Datensatz erreicht das LIX-Framework mit 71,93% mFsc, 92,91% fwFsc, 60,33% mIoU und 87,32% fwIoU ebenfalls die besten Ergebnisse.
Quotes
"Implizites Einbringen des räumlichen geometrischen Vorwissens, das von einem Lehrer-Modell mit Doppelencoder erlernt wurde, in ein Schüler-Modell mit Einzelencoder ist ein praktischer, wenn auch weniger erforschter Forschungsbereich."
"Wir führen den dynamischen Gewichtungscontroller (DWC) ein, der in der Lage ist, für jeden Logit ein individuelles Gewicht zu generieren und so die Gesamtleistung der Logit-Destillation zu verbessern."
"Wir entwickeln einen adaptiv rekalibrierenden Feature-Destillations-Algorithmus, der zwei technische Neuheiten beinhaltet: Feature-Rekalibrierung über Kernel-Regression und tiefgehende Feature-Konsistenzmessung über Centered Kernel Alignment."