Detaillierte Pixel-Ebenen-Bildverstehens-Fähigkeiten durch visuelle Anweisungsabstimmung
Osprey, ein neuartiger Ansatz, erweitert die Fähigkeiten von Multimodalen Großsprachen-Modellen (MLLMs) für detailliertes pixelweises Bildverstehen, indem er eine Maske-basierte visuelle Extraktionskomponente und eine umfangreiche Maske-Text-Datensatz-Sammlung nutzt.