VIT-LENS ermöglicht effizientes Lernen von Repräsentationen für verschiedene Modalitäten, indem es die Fähigkeiten eines vortrainierten ViT nutzt und diese auf neue Modalitäten überträgt. VIT-LENS übertrifft den Stand der Technik bei Verständnisaufgaben über verschiedene Modalitäten hinweg.
Unser UniBind lernt einen modality-agnostischen und ausgewogenen Darstellungsraum, indem es die Ausrichtungszentren mithilfe von Großsprachmodellen (LLMs) und multimodalen Großsprachmodellen (multimodalen LLMs) konstruiert.
Multimodale Große Sprachmodelle können die visuell-sprachliche Repräsentationslernung durch Etablierung reichhaltigerer Bild-Text-Assoziationen für Bild-Text-Datensätze verbessern.