In dieser Studie zeigen die Autoren, dass LLM-Agenten in der Lage sind, in Echtzeit auftretende Schwachstellen ("One-day Vulnerabilities") in realen Computersystemen autonom auszunutzen. Dafür haben sie einen Benchmark von 15 solcher Schwachstellen zusammengestellt, der offene-Quell-Software und kritische Schwachstellen aus der CVE-Datenbank umfasst.
Die Ergebnisse zeigen, dass der GPT-4-Modell 87% dieser Schwachstellen erfolgreich ausnutzen kann, während alle anderen getesteten Modelle (GPT-3.5, Open-Source-Modelle) sowie Open-Source-Sicherheitsscanner (ZAP, Metasploit) eine Erfolgsquote von 0% aufweisen. Ohne die Beschreibung der Schwachstellen sinkt die Erfolgsquote von GPT-4 auf 7%, was darauf hindeutet, dass das Finden der Schwachstellen die größere Herausforderung darstellt.
Die Autoren diskutieren die Implikationen dieser Ergebnisse für den Einsatz hochleistungsfähiger LLM-Agenten in der Cybersicherheit und betonen die Notwendigkeit, die Sicherheitsaspekte bei der breiten Einführung solcher Systeme sorgfältig zu überdenken.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Richard Fang... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08144.pdfConsultas más profundas