Core Concepts
ハニーポットデータから収集されたコマンドラインデータを分析し、攻撃者の潜在的な意図を表す攻撃パターンを無監督で検出する。
Abstract
本研究では、ハニーポットデータに含まれるセッションとコマンドの構造を活用した階層的トピックモデルを提案している。
セッションレベルのトピックと、各セッション内のコマンドレベルのトピックを同時に推定する。
セッションごとに1つの主要なトピックと、全セッションに共通の二次的なトピックを仮定する。
さらに、ベイズ非parametric手法を用いて、未知の単語や未知のトピックの出現を許容する。
提案手法を実際のハニーポットデータに適用し、従来手法では検出されなかった珍しいMIRAIマルウェアの変種を発見した。
Stats
セッションごとの平均コマンド数は16.29個(中央値15個)
コマンドごとの平均単語数は6.12個(中央値2個)