Core Concepts
OmniFusion ist ein leistungsfähiges multimodales KI-Modell, das Stärken von großen Sprachmodellen mit speziellen Adaptern für die Verarbeitung visueller Informationen kombiniert. Es übertrifft bestehende Lösungen bei einer Vielzahl von visuell-sprachlichen Benchmarks und bietet detaillierte Antworten in verschiedenen Domänen.
Abstract
Der Bericht stellt das OmniFusion-Modell vor, eine neuartige multimodale Architektur, die die Stärken von vortrainierten großen Sprachmodellen (LLM) nutzt und spezialisierte Adapter für die Verarbeitung visueller Informationen einführt.
Das Kernkonzept ist die flexible Herangehensweise an die Bildcodierung, die sowohl die Codierung des gesamten Bildes als auch die Codierung in Kacheln untersucht. Dies ermöglicht ein nuanciertes Verständnis von Bildinhalt in Bezug auf Textdaten.
Die umfangreichen Evaluierungen auf acht visuell-sprachlichen Benchmarks, darunter VizWiz, POPE, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2 und MMMU, bestätigen die Effektivität des OmniFusion-Modells. Es übertrifft nicht nur führende Ansätze in verschiedenen VQA-Aufgaben, sondern zeichnet sich auch durch detaillierte Antworten in mehreren Domänen wie Haushaltsführung, Sehenswürdigkeiten, Kultur und Medizin aus.
Das Modell durchläuft einen zweistufigen Trainingsprozess: Zunächst erfolgt ein Pretraining auf einem großen Datensatz von Bild-Text-Paaren, um die Adapter und speziellen Token für den Übergang zwischen Text- und Bilddaten zu verfeinern. Anschließend erfolgt ein feines Finetuning unter Verwendung von Instruktionsdialogen, um die Fähigkeiten des Modells zur integrierten Analyse von Text- und Bildinformationen zu verbessern.
Die Experimente zeigen, dass die Verwendung verschiedener Bildcodierer wie CLIP ViT-L/14, SigLIP und InternViT-6B einen erheblichen Einfluss auf die Leistung des Modells hat. Darüber hinaus erweist sich die Strategie des Mischens von Merkmalen mehrerer Bildcodierer als effektiv, um die visuelle Verständnisfähigkeit zu verbessern.
Schließlich zeigen die Ergebnisse, dass die Erhöhung der Bildauflösung und das Aufteilen der Bilder in Kacheln die Leistung insbesondere in Domänen wie OCR-basierte Aufgaben verbessern. Darüber hinaus führt das Hinzufügen von 20.000 Beispielen aus einem proprietären Dokumentendatensatz zu einer deutlichen Leistungssteigerung bei dokumentenbezogenen Benchmarks.
Stats
Die Länge der Zeichenfolge in den Trainingsdaten für die Erkennung von LaTeX-Formeln reicht von 1 bis 4296 Symbolen.
Quotes
"OmniFusion ist ein leistungsfähiges multimodales KI-Modell, das Stärken von großen Sprachmodellen mit speziellen Adaptern für die Verarbeitung visueller Informationen kombiniert."
"OmniFusion übertrifft nicht nur führende Ansätze in verschiedenen VQA-Aufgaben, sondern zeichnet sich auch durch detaillierte Antworten in mehreren Domänen wie Haushaltsführung, Sehenswürdigkeiten, Kultur und Medizin aus."