Ein effizientes, vortrainingsfreies Framework für das fundierte visuelle Frage-Antwort-System
Das LCV2-Modulverfahren nutzt ein großes eingefrorenes Sprachmodell als Vermittler zwischen einem VQA-Modell und einem visuellen Grounding-Modell, um ein integriertes Plug-and-Play-Framework ohne Vortraining zu schaffen.