Core Concepts
LLM-Agenten können in der Lage sein, in Echtzeit auftretende Schwachstellen in realen Computersystemen autonom auszunutzen.
Abstract
In dieser Studie zeigen die Autoren, dass LLM-Agenten in der Lage sind, in Echtzeit auftretende Schwachstellen ("One-day Vulnerabilities") in realen Computersystemen autonom auszunutzen. Dafür haben sie einen Benchmark von 15 solcher Schwachstellen zusammengestellt, der offene-Quell-Software und kritische Schwachstellen aus der CVE-Datenbank umfasst.
Die Ergebnisse zeigen, dass der GPT-4-Modell 87% dieser Schwachstellen erfolgreich ausnutzen kann, während alle anderen getesteten Modelle (GPT-3.5, Open-Source-Modelle) sowie Open-Source-Sicherheitsscanner (ZAP, Metasploit) eine Erfolgsquote von 0% aufweisen. Ohne die Beschreibung der Schwachstellen sinkt die Erfolgsquote von GPT-4 auf 7%, was darauf hindeutet, dass das Finden der Schwachstellen die größere Herausforderung darstellt.
Die Autoren diskutieren die Implikationen dieser Ergebnisse für den Einsatz hochleistungsfähiger LLM-Agenten in der Cybersicherheit und betonen die Notwendigkeit, die Sicherheitsaspekte bei der breiten Einführung solcher Systeme sorgfältig zu überdenken.
Stats
Die Ausnutzung der Schwachstellen erfordert im Durchschnitt 24,3 Aktionen mit der CVE-Beschreibung und 21,3 Aktionen ohne.
Der durchschnittliche Kostenaufwand pro erfolgreicher Ausnutzung beträgt 8,80 US-Dollar.
Ohne die CVE-Beschreibung kann GPT-4 nur 7% der Schwachstellen finden und ausnutzen.
Quotes
"LLMs haben dramatische Leistungssteigerungen in den letzten Jahren erreicht und erreichen teilweise übermenschliche Leistungen in vielen Benchmarks."
"Unsere Ergebnisse zeigen eine 'emergente Fähigkeit' in GPT-4, obwohl weitere Untersuchungen erforderlich sind."
"Der Kostenaufwand für den Einsatz von LLM-Agenten ist bereits 2,8-mal günstiger als Menschenarbeit."