Evaluierung der Leistungsfähigkeit von prompt-gesteuerten großen multimodalen Modellen im Vergleich zu feinabgestimmten Vision-Transformern in bildbasierten Sicherheitsanwendungen
Große multimodale Modelle wie Gemini-pro zeigen Einschränkungen bei der Erkennung einfacher visueller Trigger und der Klassifizierung komplexer Malware-Signaturen im Vergleich zu feinabgestimmten Vision-Transformern.