Core Concepts
マシンラーニングを使用してウィンドウズ用のマルウェア検出システムを構築する方法を探る。特に、特徴ベースの検出器、深層学習ベースの検出器、可視化手法について説明する。また、概念ドリフトや敵対的攻撃への頑健性など、これらの検出器が直面する重要な課題についても議論する。
Abstract
本章では、ウィンドウズ用のマルウェア検出システムの構築にマシンラーニングがどのように適用されているかを探る。
まず、マシンラーニングパイプラインの主要コンポーネントを紹介し、最新のデータセットの収集と維持の課題について説明する。次に、特徴ベースの検出器と深層学習ベースの検出器の両方を含む、最先端のマルウェア検出器について説明する。その後、概念ドリフトと敵対的攻撃など、マシンラーニングベースのマルウェア検出器が直面する主な課題について紹介する。最後に、敵対的防御に関する進行中の研究の概要を示す。
Stats
マルウェアバイナリの収集には、ウイルストータル、MalShare、VirusShareなどのリポジトリが利用される。
マイクロソフトデータセットには10,868個のサンプルが含まれ、9つのマルウェアファミリが存在する。
EMBERデータセットには2,050,000個のサンプルが含まれ、750,000個が正常、800,000個がマルウェアである。
SOREL-20Mデータセットには19,724,997個のサンプルが含まれ、9,762,177個が正常、9,962,820個がマルウェアである。
BODMASデータセットには134,435個のサンプルが含まれ、77,142個が正常、57,293個がマルウェアで、581のマルウェアファミリが存在する。
Quotes
"garbage in, garbage out"
"マシンラーニングモデルは、与えられた情報に基づいて正確に学習する。したがって、入力データの品質が非常に重要である。"