Multimodale Großsprachmodelle (MLLM) sind eine neue aufstrebende Forschungsrichtung, die leistungsstarke Großsprachmodelle als Basis für die Durchführung multimodaler Aufgaben nutzen. Die überraschenden emergenten Fähigkeiten von MLLM, wie das Schreiben von Geschichten basierend auf Bildern und OCR-freies mathematisches Schlussfolgern, sind in traditionellen Methoden selten und deuten auf einen möglichen Weg zur Allgemeinen Künstlichen Intelligenz hin.
Dieser Artikel bietet einen umfassenden Überblick über den aktuellen Stand der Forschung und Entwicklung von Großsprachmodellen (LLMs) mit multimodalen Fähigkeiten. Er behandelt die historische Entwicklung von LLMs, die Rolle von Aufmerksamkeitsmechanismen, den Vergleich zwischen proprietären und Open-Source-Modellen sowie eine detaillierte Analyse der wichtigsten LLMs und multimodalen LLMs (MM-LLMs).