Die Studie untersucht die Leistungsfähigkeit von prompt-gesteuerten großen multimodalen Modellen (LMMs) wie Gemini-pro im Vergleich zu feinabgestimmten Vision-Transformern (ViTs) in zwei Cybersicherheitsaufgaben: der Erkennung von visuellen Triggern und der Klassifizierung von Malware.
Für die Triggererkennungsaufgabe, bei der es um das Erkennen kleiner weißer Quadrate in Bildern geht, zeigten die feinabgestimmten ViT-Modelle eine hervorragende Leistung mit 100% Genauigkeit. Die Gemini-pro-Modelle erreichten dagegen nur eine Spitzengenauigkeit von 77,2%, selbst mit detaillierten Eingabeaufforderungen.
Bei der Malware-Klassifizierungsaufgabe, bei der es um die Erkennung komplexer visueller Muster geht, erzielten die feinabgestimmten ViT-Modelle Genauigkeiten von 97,12% für die Klassifizierung in 25 Malware-Typen und 98,00% für die Klassifizierung in 5 Malware-Familien. Die Gemini-pro-Modelle hingegen erreichten in diesem Bereich nur eine Genauigkeit von 21,2% im besten Fall.
Diese Ergebnisse zeigen, dass prompt-gesteuerte LMMs zwar benutzerfreundlich und vielseitig einsetzbar sind, aber bei Aufgaben, die eine detaillierte visuelle Analyse erfordern, an ihre Grenzen stoßen. Im Gegensatz dazu erweisen sich feinabgestimmte ViT-Modelle als überlegen, wenn es um präzise und zuverlässige Bildanalyseaufgaben in der Cybersicherheit geht.
翻譯成其他語言
從原文內容
arxiv.org
深入探究