核心概念
Große multimodale Modelle wie Gemini-pro zeigen Einschränkungen bei der Erkennung einfacher visueller Trigger und der Klassifizierung komplexer Malware-Signaturen im Vergleich zu feinabgestimmten Vision-Transformern.
要約
Die Studie untersucht die Leistungsfähigkeit von prompt-gesteuerten großen multimodalen Modellen (LMMs) wie Gemini-pro im Vergleich zu feinabgestimmten Vision-Transformern (ViTs) in zwei Cybersicherheitsaufgaben: der Erkennung von visuellen Triggern und der Klassifizierung von Malware.
Für die Triggererkennungsaufgabe, bei der es um das Erkennen kleiner weißer Quadrate in Bildern geht, zeigten die feinabgestimmten ViT-Modelle eine hervorragende Leistung mit 100% Genauigkeit. Die Gemini-pro-Modelle erreichten dagegen nur eine Spitzengenauigkeit von 77,2%, selbst mit detaillierten Eingabeaufforderungen.
Bei der Malware-Klassifizierungsaufgabe, bei der es um die Erkennung komplexer visueller Muster geht, erzielten die feinabgestimmten ViT-Modelle Genauigkeiten von 97,12% für die Klassifizierung in 25 Malware-Typen und 98,00% für die Klassifizierung in 5 Malware-Familien. Die Gemini-pro-Modelle hingegen erreichten in diesem Bereich nur eine Genauigkeit von 21,2% im besten Fall.
Diese Ergebnisse zeigen, dass prompt-gesteuerte LMMs zwar benutzerfreundlich und vielseitig einsetzbar sind, aber bei Aufgaben, die eine detaillierte visuelle Analyse erfordern, an ihre Grenzen stoßen. Im Gegensatz dazu erweisen sich feinabgestimmte ViT-Modelle als überlegen, wenn es um präzise und zuverlässige Bildanalyseaufgaben in der Cybersicherheit geht.
統計
Die feinabgestimmten ViT-Modelle erreichten eine Genauigkeit von 97,12% bei der Klassifizierung in 25 Malware-Typen und 98,00% bei der Klassifizierung in 5 Malware-Familien.
Die Gemini-pro-Modelle erreichten eine Spitzengenauigkeit von 77,2% bei der Triggererkennungsaufgabe.
引用
"Die Ergebnisse zeigen, dass prompt-gesteuerte LMMs zwar benutzerfreundlich und vielseitig einsetzbar sind, aber bei Aufgaben, die eine detaillierte visuelle Analyse erfordern, an ihre Grenzen stoßen."
"Im Gegensatz dazu erweisen sich feinabgestimmte ViT-Modelle als überlegen, wenn es um präzise und zuverlässige Bildanalyseaufgaben in der Cybersicherheit geht."