Das MAGiC-Modell nutzt den Kontext zwischen Objekten und deren Ansichten, um Sprache effektiv auf 3D-Objekte zu verankern und so die Leistung bei Objektreferenzaufgaben zu verbessern.
Unser neuartiger LinCIR-Rahmen (Language-only training for CIR) ermöglicht ein effizientes und hocheffektives Training für die Zero-Shot-Zusammengesetzte Bildsuche, indem er nur Textdatensätze verwendet und eine neuartige Selbstüberwachung namens Self-Masking Projection (SMP) einführt.
Die Generierung von Navigationsanweisungen kann als Bildunterschriftenaufgabe unter Verwendung semantischer Karten als visuelle Eingabe formuliert werden. Semantische Karten abstrahieren von visuellen Details und fassen die Informationen aus mehreren Panoramabildern in einer einzigen Top-Down-Darstellung zusammen, wodurch die Verarbeitungskomplexität der Eingabe reduziert wird.
Visuelle Informationen können die Effizienz des Worterwerbs in Modellen für Sprachverarbeitung verbessern, insbesondere in Situationen mit geringen Daten. Allerdings ist dieser Vorteil begrenzt und hängt davon ab, wie viel kontextuelle Information aus dem Sprachtext zur Verfügung steht.
Visuelle Verankerung ermöglicht effizienteres Lernen von Wortbedeutungen und verbessert die Leistung von Sprachmodellen.
Durch die Einführung einer Navigations-Kette-des-Denkens können Großsprachmodelle als Weltmodell und Navigationsagent fungieren, um die Entscheidungsfindung für Navigationsaktionen zu vereinfachen und zu verbessern.
VLLMs zeigen gemischte Ergebnisse bei der Nachahmung menschlicher Benennungspräferenzen, insbesondere bei der Zuweisung von Quantoren.