Honeybee: Ein leistungsfähiger und effizienter Multimodaler Großsprachmodell-Projektor mit verbesserter Lokalitätserhaltung
Der Projektor spielt eine entscheidende Rolle in Multimodalen Großsprachmodellen, indem er die visuellen Merkmale in visuelle Token übersetzt, die vom Sprachmodell verstanden werden können. Der Beitrag stellt zwei neuartige lokalitätsverbesserte Projektoren vor, die sowohl Flexibilität in der Verwaltung der Anzahl der visuellen Token als auch die Erhaltung des lokalen Kontexts der visuellen Merkmale bieten, um eine bessere Leistung und Effizienz zu erzielen.