Die Studie untersucht die Leistungsfähigkeit von prompt-gesteuerten großen multimodalen Modellen (LMMs) wie Gemini-pro im Vergleich zu feinabgestimmten Vision-Transformern (ViTs) in zwei Cybersicherheitsaufgaben: der Erkennung von visuellen Triggern und der Klassifizierung von Malware.
Für die Triggererkennungsaufgabe, bei der es um das Erkennen kleiner weißer Quadrate in Bildern geht, zeigten die feinabgestimmten ViT-Modelle eine hervorragende Leistung mit 100% Genauigkeit. Die Gemini-pro-Modelle erreichten dagegen nur eine Spitzengenauigkeit von 77,2%, selbst mit detaillierten Eingabeaufforderungen.
Bei der Malware-Klassifizierungsaufgabe, bei der es um die Erkennung komplexer visueller Muster geht, erzielten die feinabgestimmten ViT-Modelle Genauigkeiten von 97,12% für die Klassifizierung in 25 Malware-Typen und 98,00% für die Klassifizierung in 5 Malware-Familien. Die Gemini-pro-Modelle hingegen erreichten in diesem Bereich nur eine Genauigkeit von 21,2% im besten Fall.
Diese Ergebnisse zeigen, dass prompt-gesteuerte LMMs zwar benutzerfreundlich und vielseitig einsetzbar sind, aber bei Aufgaben, die eine detaillierte visuelle Analyse erfordern, an ihre Grenzen stoßen. Im Gegensatz dazu erweisen sich feinabgestimmte ViT-Modelle als überlegen, wenn es um präzise und zuverlässige Bildanalyseaufgaben in der Cybersicherheit geht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Fouad Trad,A... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17787.pdfDeeper Inquiries