Die Studie untersucht die Fähigkeiten von 11 state-of-the-art LLMs für die Erkennung von Sicherheitslücken. Die Autoren verwendeten verschiedene Prompt-Methoden, einschließlich drei neuer Ansätze, die Informationen aus Fehlerbehebungen, CVE-Beschreibungen und statischen Analysen nutzen.
Die Ergebnisse zeigen, dass die LLMs im Durchschnitt eine Balanced Accuracy von 0,5-0,63 erreichten, was nahe an einer Zufallsvorhersage liegt. In 76% der Fälle konnten die Modelle nicht zwischen fehlerfreiem und fehlerhaftem Code unterscheiden. Eine detaillierte Analyse von 287 Modellvorhersagen ergab, dass 57% der Antworten Fehler enthielten, insbesondere in Bezug auf das Verständnis von Codestrukturen, Logik und Allgemeinwissen. Die Modelle konnten nur 6 von 27 Fehlern in DbgBench korrekt lokalisieren, während dies mindestens einem menschlichen Teilnehmer in allen 27 Fällen gelang.
Diese Ergebnisse deuten darauf hin, dass LLMs trotz ihrer Leistungsfähigkeit in anderen Bereichen erhebliche Einschränkungen bei der Erkennung von Sicherheitslücken aufweisen. Die Studie hebt den Bedarf an weiterer Forschung hervor, um die Fähigkeiten von LLMs in diesem Bereich zu verbessern.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Benjamin Ste... klo arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17218.pdfSyvällisempiä Kysymyksiä