المفاهيم الأساسية
静的、動的、コンテキスト情報を含むハイブリッド機械学習アプローチは、特に低い誤検知率が求められる場合に、従来のマルウェア検出モデルよりも優れた検出率を達成できる。
الملخص
論文情報
Dmitrijs Trizna. (2022). Quo Vadis: Hybrid Machine Learning Meta-Model Based on Contextual and Behavioral Malware Representations. In Proceedings of the 15th ACM Workshop on Artificial Intelligence and Security (AISec ’22), November 11, 2022, Los Angeles, CA, USA. ACM, Los Angeles, CA, USA, 10 pages. https://doi.org/10.1145/3560830.3563726
研究目的
本論文では、静的分析、動的分析、コンテキスト分析を組み合わせたハイブリッド機械学習アーキテクチャを用いた、より効果的なマルウェア検出手法を提案する。
方法論
- 実行時のファイルパス情報、WindowsカーネルAPIコールシーケンス、Windows PE構造から得られる静的表現という3つの分析手法を用いる。
- 各分析手法に対応する個別に事前学習されたモデル(ファイルパス用CNN、APIコールシーケンス用CNN、Ember特徴ベクトル用FFNN)を用意する。
- 各モデルの出力を連結し、最終的な予測を行うメタモデル(FFNN)に入力する。
- 10万件以上のマルウェアサンプルと、3か月後に収集した未知のサンプルを含むテストセットを用いて、モデルの性能を評価する。
主な結果
- ハイブリッドモデルは、個々のモデルよりも優れた検出率を達成し、特に低い誤検知率要件下では顕著な改善が見られた。
- メタモデルは、個々のモデルが単独では悪意があると判断できない場合でも、3つの分析手法からの表現を組み合わせることで、悪意のあるサンプルを検出できる場合があることがわかった。
- 静的モデルを標的とした敵対的攻撃(GAMMA)に対して、ハイブリッドモデルは高い頑健性を示した。
結論
本論文では、静的、動的、コンテキスト情報の組み合わせが、進化するマルウェアの検出において重要な役割を果たすことを示した。 メタモデルを用いたハイブリッドアーキテクチャは、個々の分析手法の限界を克服し、より正確で堅牢なマルウェア検出を実現する。
意義
本研究は、ハイブリッド分析とメタ学習を用いたマルウェア検出の有効性を示し、将来のマルウェア対策技術の開発に貢献するものである。
限界と今後の研究
- 本研究では、Windows PEファイルのみを対象としており、他の種類のマルウェアには適用できない可能性がある。
- 今後は、より多くの種類のマルウェアや攻撃手法を含む、より大規模で多様なデータセットを用いた評価が必要である。
- メタモデルの解釈可能性を高め、検出結果の根拠を明確にすることが今後の課題である。
الإحصائيات
データセットは、98,966個のサンプル(329GB)からなるトレーニング/検証セットと、27,500個のサンプル(約100GB)からなるテストセットで構成されている。
エミュレーションによるAPIコールの分析では、トレーニング/検証データセットにおいて2,822個のユニークなAPIコールが取得された。
誤検知率を100件中1件に設定した場合、個々のモデルの検出率は、Ember FFNNで56.86%、ファイルパスモデルで33.31%、エミュレーションモデルで33.89%であった。
一方、ハイブリッドモデルでは、同じ誤検知率で86.28%の検出率を達成した。
ファイルパスモデルとエミュレーションモデルを組み合わせた場合、Ember FFNNよりも高い検出率(77.36%対55.86%)が得られた。
GAMMA攻撃による回避率は、静的モデルでは28.06%であったが、エミュレーション分析を追加することで4.28%に低下し、ファイルパスモデルを追加することでさらに0.35%にまで減少した。
اقتباسات
"We conclude that the meta-model can learn patterns typical to malicious samples out of representation combinations produced by different analysis techniques."
"We acknowledge that malware classification based on hybrid representations of software yields improved detection performance and reduced false-positive rates against the evolving nature of malevolent logic compared to any individual method capabilities."