Visuelle Kette des Denkens: Entfesselung der Kette des Denkens in multimodalen Sprachmodellen
Dieser Artikel präsentiert Visual CoT, eine neuartige Pipeline, die die Reasoning-Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) durch den Einsatz visueller Kette des Denkens (CoT) erweitert.