Multimodale Großsprachmodelle (MLLM) sind eine neue aufstrebende Forschungsrichtung, die leistungsstarke Großsprachmodelle als Basis für die Durchführung multimodaler Aufgaben nutzen. Die überraschenden emergenten Fähigkeiten von MLLM, wie das Schreiben von Geschichten basierend auf Bildern und OCR-freies mathematisches Schlussfolgern, sind in traditionellen Methoden selten und deuten auf einen möglichen Weg zur Allgemeinen Künstlichen Intelligenz hin.
Durch den Einsatz von Sprachmodellen und Bildgenerierung kann ein System lebendige und konsistente multimodale Geschichten erzeugen, die den Leser fesseln.