Kernkonzepte
Effiziente Anpassung von Bildauflösungen für verbesserte Leistung von multimodalen großen Sprachmodellen.
Zusammenfassung
Das Papier untersucht die visuelle Schwäche von MLLMs aus der Perspektive der Bildauflösung und schlägt eine effiziente Methode namens Mischung aus Auflösungsanpassung (MRA) vor. MRA verwendet zwei visuelle Pfade, um Bilder mit unterschiedlichen Auflösungen zu verarbeiten und hochauflösende Informationen in die Niedrigauflösungsmodellierung einzubetten. Die Anwendung von MRA auf das MLLM LLaVA-1.5 führt zur Schaffung eines neuen Modells, LLaVA-HR, das die Leistung auf verschiedenen Vision-Sprach-Aufgaben verbessert und dabei effizient bleibt.
Untersuchung der visuellen Schwäche von MLLMs aus der Perspektive der Bildauflösung.
Vorstellung der Mischung aus Auflösungsanpassung (MRA) für MLLMs.
Anwendung von MRA auf LLaVA-1.5 zur Schaffung von LLaVA-HR.
Experimente zeigen die Wirksamkeit und Effizienz von LLaVA-HR im Vergleich zu bestehenden MLLMs.
Statistiken
"LLaVA-HR kann die Leistung bestehender MLLMs auf 8 von 11 VL-Aufgaben verbessern."
"LLaVA-HR ist 3-mal schneller in Training und Inferenz als LLaVA-1.5."
Zitate
"Die visuelle Schwäche von MLLMs wird durch die Bildauflösungsperspektive untersucht."
"Die Effizienz von LLaVA-HR übertrifft bestehende MLLMs auf verschiedenen VL-Aufgaben."