VIT-LENS erweitert die Fähigkeiten eines vortrainierten ViT, um diverse Modalitäten über 2D-Bilder hinaus wahrzunehmen und zu verstehen. Dies erreicht es, indem es zunächst eine modalitätsspezifische Linse verwendet, um modalitätsspezifische Daten in den Eingaberaum des vortrainierten ViT zu überführen. Anschließend wird der kodierte Output des ViT mit dem Feature, das aus den Ankerdaten (Text/Bild/Text-Bild) extrahiert wurde, durch ein vorhandenes Grundlagenmodell ausgerichtet. Dieser neuartige Ansatz ermöglicht es einem vortrainierten ViT, diverse Modalitäten über Bilder hinaus zu integrieren und zu verstehen, während er gleichzeitig sein Wissen aus dem Vortraining nutzt, um diese Modalitäten besser zu verstehen und zu interpretieren.
VIT-LENS bietet mehrere Vorteile bei der Weiterentwicklung des omni-modalen Repräsentationslernens: (1) Modellvereinheitlichung: VIT-LENS verwendet einen gemeinsamen vortrainierten ViT für verschiedene Modalitäten, was eine skalierbare Erweiterung der Modalitäten ermöglicht und sich mit dem wachsenden Trend der großen Konvergenz im multimodalen Verständnis deckt. (2) Dateneffiziente Herangehensweise: VIT-LENS erreicht seine Vielseitigkeit und Anwendbarkeit über verschiedene Aufgaben und Domänen hinweg, indem es das fortschrittliche ViT-Modell effektiv nutzt, ohne große Datenmengen zu benötigen. (3) Emergente Fähigkeiten: VIT-LENS ermöglicht es Großen Sprachmodellen (LLMs), neuartige Modalitäten ohne spezifisches Instruktions-Finetuning wahrzunehmen und zu verstehen, indem es die ViT-Architektur in ein vorhandenes MLLM integriert.
Um die Effektivität von VIT-LENS zu demonstrieren, evaluieren wir seine Leistung im Kontext des 3D-Formverständnisses. Auf der Nullschuss-3D-Klassifizierungsaufgabe zeigt VIT-LENS erhebliche Verbesserungen gegenüber den bisherigen Spitzenwerten. Insbesondere übertrifft VIT-LENS ULIP um 10,2%, ULIP2 um 10,4% und OpenShape um 3,2% auf ModelNet40 in Bezug auf die Nullschuss-Genauigkeit. VIT-LENS überzeugt auch bei der Handhabung von Kategorien mit geringer Häufigkeit. Auf dem herausfordernden Objaverse-LVIS-Datensatz mit 1.156 Kategorien erreicht VIT-LENS eine Nullschuss-Genauigkeit von 52,0%, was den bisherigen Stand der Technik deutlich übertrifft.
Darüber hinaus binden wir 3D-Formen in die ViT-Architektur, die in InstructBlip, einem MLLM, verwendet wird, der 2D-Bilder verstehen und damit interagieren kann. Nach dem Vortraining integrieren wir den von VIT-LENS produzierten 3D-Encoder in InstructBlip, um zu untersuchen, ob VIT-LENS dem LLM die Fähigkeit verleihen kann, die 3D-Modalität wahrzunehmen und zu verstehen. Diese Integration zeigt, dass die neue Variante des MLLM mit der Fähigkeit zur 3D-Formenbeschreibung und -beantwortung von Fragen ausgestattet ist, ohne spezifisches Instruktions-Finetuning zu erfordern.
VIT-LENS zielt darauf ab, das omni-modale Repräsentationslernen auf einfache, aber effektive Weise voranzutreiben und den Bedarf an großen Datensätzen zu verringern, indem es ein einziges Set von Expertenwissensparametern nutzt. Unsere erste Exploration zielt darauf ab, Große Sprachmodelle (LLMs) in die Lage zu versetzen, Modalitäten außerhalb von Bildern in einem Nullschuss-Verfahren wahrzunehmen und zu verstehen. Zukünftige Arbeiten können VIT-LENS weiter ausbauen, um mehr Modalitäten einzubeziehen und zusätzliche emergente Fähigkeiten zu erforschen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Weixian Lei,... في arxiv.org 03-27-2024
https://arxiv.org/pdf/2308.10185.pdfاستفسارات أعمق