Diese Studie untersucht die Genauigkeit von Large Language Models (LLMs), insbesondere ChatGPT und Bard, bei der Erkennung und Behebung von Sicherheitslücken in JavaScript-Programmen. Die Forscher haben 20 der häufigsten Softwareschwachstellen aus der CWE Top 25 Liste identifiziert, die für JavaScript relevant sind. Anschließend haben sie drei verschiedene Eingabeaufforderungsvorlagen mit unterschiedlichen Graden an kontextbezogenen Hinweisen entwickelt, um den Einfluss des Kontexts auf die Leistung der LLMs zu untersuchen.
Die Ergebnisse zeigen, dass ChatGPT im Durchschnitt 71,66% der Fälle korrekt reparieren kann, während Bard eine Genauigkeit von 68,33% erreicht. Darüber hinaus zeigen die Experimente, dass mehr Kontext in den Eingabeaufforderungen die Leistung der LLMs deutlich verbessert, mit einer Steigerung der Genauigkeit von bis zu 55%. Die Studie deutet darauf hin, dass LLMs vielversprechendes Potenzial für die automatische Reparatur von Sicherheitslücken in JavaScript-Code haben, aber der Kontext in den Eingabeaufforderungen eine entscheidende Rolle spielt, um korrekte Patches zu erzeugen.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Tan Khang Le... ב- arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13193.pdfשאלות מעמיקות