Die Entwicklung großer Sehen-Sprache-Modelle (LVLMs) versucht, mit dem Erfolg großer Sprachmodelle (LLMs) Schritt zu halten, sieht sich jedoch mit mehr Herausforderungen konfrontiert, die es zu lösen gilt. Jüngste Arbeiten haben LVLMs zwar die Fähigkeit verliehen, objektbezogene visuelle Inhalte zu lokalisieren und Text daran zu binden, doch haben aktuelle LVLMs immer noch Schwierigkeiten, visuelle Beziehungen präzise zu verstehen, da es an relevanten Daten mangelt.
In dieser Arbeit stellen wir RelationVLM vor, ein großes Sehen-Sprache-Modell, das in der Lage ist, verschiedene Ebenen und Arten von Beziehungen zu verstehen, sei es über mehrere Bilder hinweg oder innerhalb eines Videos. Insbesondere entwickeln wir ein mehrstufiges beziehungsbewusstes Trainingssystem und eine Reihe entsprechender Datenkonfigurationsstrategien, um RelationVLM mit den Fähigkeiten zum Verständnis semantischer Beziehungen, zeitlicher Zusammenhänge und geometrischer Transformationen auszustatten.
Umfangreiche Fallstudien und quantitative Auswertungen zeigen, dass RelationVLM eine starke Fähigkeit zum Verständnis solcher Beziehungen besitzt und beeindruckende In-Kontext-Fähigkeiten zum Schlussfolgern aus wenigen Beispielen entwickelt. Diese Arbeit fördert den Fortschritt von LVLMs, indem sie ihnen ermöglicht, eine breitere Palette von Anwendungen in Richtung Künstlicher Allgemeiner Intelligenz zu unterstützen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zhipeng Huan... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12801.pdfDomande più approfondite