Der Artikel stellt Osprey, einen neuartigen Ansatz vor, um die Fähigkeiten von Multimodalen Großsprachen-Modellen (MLLMs) für detailliertes pixelweises Bildverstehen zu erweitern.
Zunächst wird eine umfangreiche Maske-Text-Datensatz-Sammlung namens Osprey-724K vorgestellt, die 724.000 Beispiele mit sorgfältig annotierten Maske-Text-Paaren enthält. Dies umfasst Objekt- und Teilebenen-Beispiele sowie zusätzliche Instruktionsbeispiele zur Verbesserung der Robustheit und Flexibilität.
Anschließend wird die Architektur von Osprey beschrieben. Der Kern ist ein konvolutionaler CLIP-Bildencoder, der eine effiziente und robuste Verarbeitung hochauflösender Eingaben ermöglicht. Zusätzlich wird ein Maske-bewusster visueller Extraktor eingeführt, um präzise visuelle Merkmale auf Pixelebene zu erfassen. Diese Merkmale werden dann mit Sprachinstruktionen kombiniert und in ein großes Sprachmodell eingegeben, um detailliertes Bildverstehen zu erreichen.
Umfangreiche Experimente zeigen, dass Osprey die Leistung bei verschiedenen Aufgaben zum regionalen Bildverstehen wie Objekterkennung, Klassifizierung und komplexer Beschreibung&Reasoning deutlich übertrifft. Insbesondere übertrifft Osprey die vorherigen Methoden bei der Verwendung von Maske-basierten Regionen erheblich.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы