Kernkonzepte
Eine code-bewusste Datengenerierungstechnik wird eingeführt, um mutierte Trainingsproben zu erzeugen und die Merkmale tatsächlicher Proben zu erfassen. Die generierten Bilder ahmen die begrenzt gesehene Malware nach und lösen den Bedarf an umfassender Datenerfassung.
Zusammenfassung
Die Arbeit befasst sich mit der effizienten Erkennung von Malware in eingebetteten Computersystemen, insbesondere von Code-obfuskierter und schleichender Malware, die schwer mit herkömmlichen statischen und dynamischen Malware-Erkennungstechniken zu erkennen ist.
Es wird eine code-bewusste Datengenerierungstechnik vorgestellt, die mutierte Trainingsproben erzeugt, um die Merkmale tatsächlicher Proben zu erfassen. Durch Verlustminimierung wird sichergestellt, dass die generierten Proben die begrenzt gesehene Malware genau nachahmen und unpraktische Proben vermeiden.
Diese generierten Malware-Proben werden dann in den Trainingssatz aufgenommen, um ein Modell zu formulieren, das die aufkommende Malware effizient erkennen kann, auch wenn nur begrenzte Exposition vorliegt. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Technik eine Genauigkeit von 90% bei der Erkennung der begrenzt gesehenen Malware erreicht, was etwa 3-mal höher ist als die Genauigkeit, die mit state-of-the-art-Techniken erzielt wird.
Statistiken
Die vorgeschlagene Technik kann eine Genauigkeit von bis zu 89,52% erreichen, was 7% höher ist als Modelle, die nur mit begrenzten Proben trainiert wurden.
Zitate
"Mit Effizienz und Wirksamkeit wurde Machine Learning (ML) in den letzten Jahren weit für die Malware-Erkennung übernommen."
"Trotz ihrer Effizienz erfordern die bestehenden Techniken eine enorme Anzahl von gutartigen und Malware-Proben für das Training und die Modellierung eines effizienten Malware-Detektors."