Effizientes Lernen von Omni-Modalen Repräsentationen mit VIT-LENS
VIT-LENS ermöglicht effizientes Lernen von Repräsentationen für verschiedene Modalitäten, indem es die Fähigkeiten eines vortrainierten ViT nutzt und diese auf neue Modalitäten überträgt. VIT-LENS übertrifft den Stand der Technik bei Verständnisaufgaben über verschiedene Modalitäten hinweg.