In dieser Studie zeigen die Autoren, dass LLM-Agenten in der Lage sind, in Echtzeit auftretende Schwachstellen ("One-day Vulnerabilities") in realen Computersystemen autonom auszunutzen. Dafür haben sie einen Benchmark von 15 solcher Schwachstellen zusammengestellt, der offene-Quell-Software und kritische Schwachstellen aus der CVE-Datenbank umfasst.
Die Ergebnisse zeigen, dass der GPT-4-Modell 87% dieser Schwachstellen erfolgreich ausnutzen kann, während alle anderen getesteten Modelle (GPT-3.5, Open-Source-Modelle) sowie Open-Source-Sicherheitsscanner (ZAP, Metasploit) eine Erfolgsquote von 0% aufweisen. Ohne die Beschreibung der Schwachstellen sinkt die Erfolgsquote von GPT-4 auf 7%, was darauf hindeutet, dass das Finden der Schwachstellen die größere Herausforderung darstellt.
Die Autoren diskutieren die Implikationen dieser Ergebnisse für den Einsatz hochleistungsfähiger LLM-Agenten in der Cybersicherheit und betonen die Notwendigkeit, die Sicherheitsaspekte bei der breiten Einführung solcher Systeme sorgfältig zu überdenken.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Richard Fang... klokken arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08144.pdfDypere Spørsmål