Keskeiset käsitteet
Große Sprachmodelle (LLMs) können effektiv eingesetzt werden, um Schadsoftware in JavaScript-Paketen im npm-Ökosystem zu erkennen.
Tiivistelmä
Die Studie präsentiert SocketAI Scanner, einen mehrstufigen Entscheidungsfindungsworkflow zur Erkennung von Schadsoftware, der iterative Selbstverfeinerung und Zero-Shot-Role-Play-Chain-of-Thought-Prompting-Techniken in ChatGPT-Modellen nutzt.
Die Forscher untersuchten 5.115 npm-Pakete, von denen 2.180 als schädlich eingestuft wurden. Der Vergleich der Leistung der GPT-3- und GPT-4-Modelle mit einem statischen Analysewerkzeug zeigte vielversprechende Ergebnisse für die GPT-Modelle mit niedrigen Fehlalarmraten. Der Vergleich zeigt eine deutliche Verbesserung gegenüber der statischen Analyse bei Präzisionswerten über 25% und F1-Werten über 15%. Die Forscher erzielten Präzisions- und F1-Werte von 91% bzw. 94% für das GPT-3-Modell. Insgesamt zeigt GPT-4 eine überlegene Leistung bei Präzision (99%) und F1 (97%), während GPT-3 ein kostengünstigeres Gleichgewicht zwischen Leistung und Aufwand bietet.
Tilastot
"45% der Organisationen weltweit werden bis 2025 Angriffe auf die Software-Lieferkette erleben."
"Die Präzision des statischen Analysewerkzeugs beträgt 0,65, was auf eine geringere Genauigkeit für die Erkennung von Schadsoftware hinweist."
"Das GPT-3-Modell erreicht eine Präzision von 0,91 und einen F1-Wert von 0,94."
"Das GPT-4-Modell erreicht eine Präzision von 0,99 und einen F1-Wert von 0,97."
"Die Kosten für die Verarbeitung von 18.754 eindeutigen Dateien betragen für GPT-3 125,65 USD und für GPT-4 2.013,84 USD."
Lainaukset
"45% der Organisationen weltweit werden bis 2025 Angriffe auf die Software-Lieferkette erleben, was die Dringlichkeit unterstreicht, die Sicherheit der Software-Lieferkette für gemeinschaftliche und nationale Interessen zu verbessern."
"Die Komplexität der Unterscheidung zwischen absichtlichen und unbeabsichtigten Schwachstellen unterstreicht die Notwendigkeit fortgeschrittener Erkennungstechniken, um die Schadsoftware-Absicht des Codes zu bestimmen."
"GPT-4 zeigt eine überlegene Leistung bei Präzision (99%) und F1 (97%), während GPT-3 ein kostengünstigeres Gleichgewicht zwischen Leistung und Aufwand bietet."