Główne pojęcia
Große Sprachmodelle (LLMs) zeigen vielversprechendes Potenzial für die automatische Reparatur von Sicherheitslücken in JavaScript-Programmen, wobei der Kontext in den Eingabeaufforderungen einen erheblichen Einfluss auf die Leistung der LLMs hat.
Streszczenie
Diese Studie untersucht die Genauigkeit von Large Language Models (LLMs), insbesondere ChatGPT und Bard, bei der Erkennung und Behebung von Sicherheitslücken in JavaScript-Programmen. Die Forscher haben 20 der häufigsten Softwareschwachstellen aus der CWE Top 25 Liste identifiziert, die für JavaScript relevant sind. Anschließend haben sie drei verschiedene Eingabeaufforderungsvorlagen mit unterschiedlichen Graden an kontextbezogenen Hinweisen entwickelt, um den Einfluss des Kontexts auf die Leistung der LLMs zu untersuchen.
Die Ergebnisse zeigen, dass ChatGPT im Durchschnitt 71,66% der Fälle korrekt reparieren kann, während Bard eine Genauigkeit von 68,33% erreicht. Darüber hinaus zeigen die Experimente, dass mehr Kontext in den Eingabeaufforderungen die Leistung der LLMs deutlich verbessert, mit einer Steigerung der Genauigkeit von bis zu 55%. Die Studie deutet darauf hin, dass LLMs vielversprechendes Potenzial für die automatische Reparatur von Sicherheitslücken in JavaScript-Code haben, aber der Kontext in den Eingabeaufforderungen eine entscheidende Rolle spielt, um korrekte Patches zu erzeugen.
Statystyki
ChatGPT erreicht eine durchschnittliche Genauigkeit von 71,66% bei der Reparatur von Sicherheitslücken in JavaScript-Code.
Bard erreicht eine durchschnittliche Genauigkeit von 68,33% bei der Reparatur von Sicherheitslücken in JavaScript-Code.
Die Genauigkeit von ChatGPT steigt von 40% bei kontextfreien Eingabeaufforderungen auf 95% bei kontextreichen Eingabeaufforderungen.
Die Genauigkeit von Bard steigt von 40% bei kontextfreien Eingabeaufforderungen auf 85% bei kontextreichen Eingabeaufforderungen.
Cytaty
"Große Sprachmodelle zeigen vielversprechendes Potenzial für die automatische Reparatur von Sicherheitslücken in JavaScript-Programmen, wobei der Kontext in den Eingabeaufforderungen einen erheblichen Einfluss auf die Leistung der LLMs hat."
"Die Ergebnisse zeigen, dass ChatGPT im Durchschnitt 71,66% der Fälle korrekt reparieren kann, während Bard eine Genauigkeit von 68,33% erreicht."
"Die Genauigkeit von ChatGPT steigt von 40% bei kontextfreien Eingabeaufforderungen auf 95% bei kontextreichen Eingabeaufforderungen."