Concepts de base
本稿では、静的マルウェア検出のための、画像テクスチャ特徴とオペコードシーケンス特徴を組み合わせた、CNN-BiLSTMに基づく新しい深層学習手法を提案する。
Résumé
論文情報
- タイトル:CNN-BiLSTMと特徴融合を用いた悪意のあるコード検出の新規アプローチ
- 著者:Lixia Zhang, Tianxu Liu, Kaihui Shen, Cheng Chen
- 発表学会・論文誌:未記載
研究目的
本研究は、従来のマルウェア検出手法の限界を克服するために、静的解析に基づいた、より正確で堅牢なマルウェア検出方法を提案することを目的とする。具体的には、マルウェアのバイナリファイルから抽出された画像テクスチャ特徴とオペコードシーケンス特徴を融合させ、CNN-BiLSTM深層学習モデルに入力することで、高精度なマルウェア検出を実現することを目指す。
手法
- 特徴抽出:
- マルウェアのバイナリファイルをMinHashアルゴリズムを用いてグレースケール画像に変換する。
- グレースケール画像から、GISTアルゴリズムを用いてグローバルテクスチャ特徴を、LBPアルゴリズムを用いてローカルテクスチャ特徴を抽出する。
- IDA Pro逆アセンブラを用いてマルウェアのオペコードシーケンスを抽出し、N-gramアルゴリズムとtf-idfアルゴリズムを用いて特徴ベクトル化する。
- 特徴融合:
- 抽出したテクスチャ特徴とオペコード特徴を結合し、マルウェアの包括的な特徴表現を得る。
- モデル構築:
- CNN-BiLSTM融合モデルを設計する。
- CNNを用いて画像特徴からローカルおよびグローバル特徴を抽出し、BiLSTMを用いてオペコードシーケンスから文脈依存性を捉える。
- 最後に、融合された特徴を全結合層に接続し、softmax活性化関数を用いて分類を行う。
実験と結果
- VirusShareプラットフォームから収集した、14種類のマルウェアファミリーを含む12,021個のサンプルを用いて実験を行った。
- N-gramアルゴリズムのパラメータnの値を1から5の範囲で変化させて実験を行った結果、n=4のとき最も高い精度が得られた。
- GIST特徴、LBP特徴、および両者を組み合わせた特徴を用いて実験を行った結果、両者を組み合わせた特徴を用いた場合に最も高い精度が得られた。
- SVM、ロジスティック回帰、ナイーブベイズ、CNN、LSTM、および提案手法であるCNN-BiLSTMの6つのモデルの性能を比較した結果、CNN-BiLSTMが最も高い精度、適合率、再現率、F1スコアを示した。
- 既存のマルウェア検出手法であるResNet、GoogleNet、CNN-image、Visualization Methodと比較して、提案手法はより高い精度を達成した。
結論
本稿では、特徴融合とCNN-BiLSTM深層学習モデルを用いた新しいマルウェア検出手法を提案した。実験の結果、提案手法は従来の手法と比較して優れたマルウェア検出性能を示すことが確認された。
今後の展望
- 転移学習やモデルプルーニングなどの手法を用いて、モデルの効率化と学習時間の短縮に取り組む。
- マルウェアの振る舞いデータなど、より多様な特徴量を組み込むことで、高度な脅威に対する検出能力を強化する。
- モバイルデバイスやIoTデバイスなど、攻撃対象として増加している環境に対応するために、様々なプラットフォームに適応させる。
- 説明可能なAI(XAI)を導入することで、検出結果の解釈性を高め、自動化システムへの信頼性を向上させる。
Stats
データセットは、VirusShareプラットフォームから収集した、2023年9月から2024年2月までにアップロードされたサンプルで構成されている。
データセットには、14種類のマルウェアファミリーが含まれており、合計12,021個のサンプルが含まれている。
N-gramアルゴリズムのパラメータnの値は、1から5の範囲で設定され、実験的に最適な値が決定された。
実験の結果、N-gramアルゴリズムのパラメータnの値が4のとき、最も高い精度が得られた。
テクスチャ特徴とオペコード特徴を融合させた場合、単独の特徴を用いた場合よりも、分類精度が2.1%から4.6%向上した。
CNN-BiLSTMモデルを用いることで、精度はさらに向上し、98.7%に達した。
これは、SVMやLSTMなどの従来のモデルよりも2.3%から5.2%高い精度である。