Core Concepts
Durch den Aufbau von Pfaden zwischen Komponenten von Transformern, die auf verschiedenen Modalitäten trainiert wurden, kann die Leistung eines Transformers für eine bestimmte Modalität auch durch irrelevante Daten aus anderen Modalitäten verbessert werden.
Abstract
Der Artikel stellt einen neuen Ansatz namens "Multimodale Pfade" vor, um die Leistung von Transformern für eine bestimmte Modalität durch die Nutzung von Modellen zu verbessern, die auf anderen, irrelevanten Modalitäten trainiert wurden.
Der Kern der Idee ist, dass Transformers eine universelle Fähigkeit zum sequenz-zu-sequenz-Modellieren haben, die über verschiedene Modalitäten hinweg übertragbar ist. Daher können die in einem Transformer-Modell für eine Modalität erlernten Fähigkeiten auch die Leistung eines anderen Transformer-Modells für eine andere Modalität verbessern, selbst wenn die Datensätze der beiden Modalitäten nicht relevant zueinander sind.
Um dies zu realisieren, schlagen die Autoren eine Methode namens "Multimodale Pfade" vor, bei der Verbindungen zwischen den Komponenten (z.B. Transformer-Blöcke) der Modelle für die Ziel- und Hilfsmodalität hergestellt werden. Eine effiziente Implementierung dieser Idee wird als "Cross-Modal Re-Parametrisierung" bezeichnet, bei der die Gewichte des Zielmodells mit denen des Hilfsmodells rekombiniert werden, ohne zusätzliche Inferenzkosten zu verursachen.
Die Autoren zeigen signifikante und konsistente Verbesserungen der Leistung über vier verschiedene Modalitäten hinweg (Bild, Video, Punktwolke, Audio), was die Existenz von modalitätskomplementärem Wissen in Transformern belegt.
Stats
Die Genauigkeit auf ImageNet-1K verbessert sich von 83,3% auf 83,9%, was einer relativen Verbesserung von 0,7% entspricht.
Die Boxen-AP auf MS COCO verbessert sich von 47,3% auf 50,0%, was einer relativen Verbesserung von 5,7% entspricht.
Die mIoU auf ADE20K verbessert sich von 46,1% auf 47,9%, was einer relativen Verbesserung von 3,9% entspricht.
Die Klassenmittel-IoU auf ShapeNetPart verbessert sich von 84,2% auf 85,6%, was einer relativen Verbesserung von 1,7% entspricht.
Die Instanz-mIoU auf ShapeNetPart verbessert sich von 86,1% auf 87,5%, was einer relativen Verbesserung von 1,6% entspricht.
Die mIoU auf PartNet verbessert sich von 47,4% auf 50,1%, was einer relativen Verbesserung von 5,7% entspricht.
Die Top-1-Genauigkeit auf AudioSet-2k verbessert sich von 35,3% auf 35,6%, was einer relativen Verbesserung von 0,8% entspricht.
Die Top-1-Genauigkeit auf Kinetics-400 verbessert sich von 81,5% auf 82,3%, was einer relativen Verbesserung von 1,0% entspricht.
Quotes
"Wir schlagen vor, Transformers einer bestimmten Modalität mit irrelevanten Daten aus anderen Modalitäten zu verbessern, z.B. ein ImageNet-Modell mit Audio- oder Punktwolkendatensätzen zu verbessern."
"Wir würden gerne hervorheben, dass die Datenproben der Zielmodalität für die anderen Modalitäten irrelevant sind, was unsere Methode von anderen Arbeiten unterscheidet, die gepaarte (z.B. CLIP) oder verschachtelte Daten verschiedener Modalitäten nutzen."