Die Studie untersucht die Leistungsfähigkeit von prompt-gesteuerten großen multimodalen Modellen (LMMs) wie Gemini-pro im Vergleich zu feinabgestimmten Vision-Transformern (ViTs) in zwei Cybersicherheitsaufgaben: der Erkennung von visuellen Triggern und der Klassifizierung von Malware.
Für die Triggererkennungsaufgabe, bei der es um das Erkennen kleiner weißer Quadrate in Bildern geht, zeigten die feinabgestimmten ViT-Modelle eine hervorragende Leistung mit 100% Genauigkeit. Die Gemini-pro-Modelle erreichten dagegen nur eine Spitzengenauigkeit von 77,2%, selbst mit detaillierten Eingabeaufforderungen.
Bei der Malware-Klassifizierungsaufgabe, bei der es um die Erkennung komplexer visueller Muster geht, erzielten die feinabgestimmten ViT-Modelle Genauigkeiten von 97,12% für die Klassifizierung in 25 Malware-Typen und 98,00% für die Klassifizierung in 5 Malware-Familien. Die Gemini-pro-Modelle hingegen erreichten in diesem Bereich nur eine Genauigkeit von 21,2% im besten Fall.
Diese Ergebnisse zeigen, dass prompt-gesteuerte LMMs zwar benutzerfreundlich und vielseitig einsetzbar sind, aber bei Aufgaben, die eine detaillierte visuelle Analyse erfordern, an ihre Grenzen stoßen. Im Gegensatz dazu erweisen sich feinabgestimmte ViT-Modelle als überlegen, wenn es um präzise und zuverlässige Bildanalyseaufgaben in der Cybersicherheit geht.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Fouad Trad,A... klokken arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17787.pdfDypere Spørsmål