Core Concepts
Große Sprachmodelle (LLMs) können die Leistung bestehender lernbasierter Methoden zur automatischen Lokalisierung von Sicherheitslücken deutlich übertreffen, wenn sie angemessen feinabgestimmt werden.
Abstract
Die Studie untersucht umfassend die Fähigkeiten von über 10 führenden LLMs, darunter ChatGPT und verschiedene Open-Source-Modelle, bei der automatischen Lokalisierung von Sicherheitslücken. Die Autoren evaluieren vier verschiedene Lernparadigmen: Zero-Shot-Lernen, One-Shot-Lernen, diskriminatives Feintuning und generatives Feintuning.
Die Ergebnisse zeigen, dass diskriminatives Feintuning von LLMs die Leistung bestehender lernbasierter Methoden deutlich übertreffen kann, während andere Paradigmen weniger effektiv oder unerwartet ineffektiv für diese Aufgabe sind. Die Autoren identifizieren auch Herausforderungen im Zusammenhang mit der Eingabelänge und dem unidirektionalen Kontext in Feinabstimmungsprozessen für Encoder und Decoder. Sie führen zwei Strategien zur Verbesserung ein: das Sliding-Window-Verfahren und die rechtsgerichtete Einbettung, die die Leistung erheblich steigern.
Darüber hinaus zeigen die Ergebnisse, dass LLMs eine vielversprechende Anpassungsfähigkeit und Genauigkeit bei der Identifizierung verschiedener Schwachstellentypen (CWEs) und über verschiedene Projekte hinweg aufweisen, was einen vielversprechenden Weg für ihre praktische Anwendung bei der Schwachstellenlokalisation darstellt.
Stats
Die durchschnittliche Anzahl der Tokens in einer Funktion beträgt 1.515,4 für den BV-LOC-Datensatz und 467,1 für den SC-LOC-Datensatz.
Quotes
"Große Sprachmodelle (LLMs) können die Leistung bestehender lernbasierter Methoden zur automatischen Lokalisierung von Sicherheitslücken deutlich übertreffen, wenn sie angemessen feinabgestimmt werden."
"Die Autoren identifizieren auch Herausforderungen im Zusammenhang mit der Eingabelänge und dem unidirektionalen Kontext in Feinabstimmungsprozessen für Encoder und Decoder."