Core Concepts
Durch die Verwendung von Skalierbare Vektorgrafiken (SVG) und einer intermediären symbolischen Darstellung (Primal Visual Description) kann das VDLM-Modell präzise visuelle Wahrnehmung und Schlussfolgerung für Vektorgrafiken erreichen, was bestehende große multimodale Modelle übertrifft.
Abstract
Das VDLM-Modell besteht aus drei Komponenten:
Ein regelbasierter visueller Encoder, der Bilder in SVG-Format umwandelt, um präzise visuelle Details zu erfassen.
Ein trainiertes Sprachmodell, das SVG-Darstellungen in eine intermediäre symbolische Beschreibung (Primal Visual Description) übersetzt, die visuelle Primitive wie Formen, Positionen und Maße enthält.
Ein inferenzbasiertes Großsprachmodell, das die textbasierte Wahrnehmung für verschiedene Aufgaben zum Schlussfolgern nutzt.
Das VDLM-Modell übertrifft bestehende große multimodale Modelle deutlich bei der Lösung von Aufgaben, die präzise Wahrnehmung von Vektorgrafiken erfordern, wie Winkelklassifizierung, Längenvergleich, räumliche Beziehungen und Maze-Lösung. Die Modularität des Ansatzes ermöglicht eine bessere Interpretierbarkeit und zeigt, dass eine Verbesserung der Wahrnehmungsqualität die Gesamtleistung steigern kann.
Stats
"Die Länge der beiden Linien ist gleich."
"Der Winkel ist spitz."
"Es gibt einen gelben Halbkreis links von einem Rechteck."
Quotes
"Bestehende große multimodale Modelle (LMMs) haben weiterhin Schwierigkeiten mit scheinbar einfachen Aufgaben, die eine präzise Wahrnehmung von Detailinformationen in Vektorgrafiken erfordern."
"Durch das Überführen des Bildes in eine textbasierte Darstellung kann VDLM die Kraft von Sprachmodellen nutzen, um die Ausrichtung von SVG-Pfaden mit visuellen Primitiven zu lernen und auf unbekannte Schlussfolgerungsaufgaben zu verallgemeinern."