本研究では、脅威インテリジェンス(TI)フィードから脆弱性の悪用を自動的に検出するための機械学習パイプラインを提案している。
まず、TIフィードの特徴を分析し、フィードの間で IoC(Indicators of Compromise)の重複や情報の流れがあることを明らかにした。これにより、自動化された分析方法の必要性が示された。
次に、TIフィードのイベントを手動で分類し、脆弱性の悪用を示すイベントとそうでないイベントのラベル付けを行った。この手動ラベリングを基に、Doc2Vec、BERT、TI2Vec、TIBERTといった自然言語処理手法を用いて特徴抽出を行い、機械学習モデルを構築した。
モデルの評価では、時系列的な制約を設けた上で、特定のフィードを訓練データから除外した場合の性能も検証した。その結果、TIBERT が最も高い F1 スコアを達成し、訓練データとテストデータ間の IoC の関係性が性能に大きな影響を与えることが分かった。
最後に、IoC カテゴリ別の特徴重要度分析を行い、ネットワーク活動、ペイロード配信、外部分析の各 IoC が相互補完的に機能していることを示した。
本研究の成果は、脆弱性の悪用検出を通じて、CVSS/EPSS スコアの更新や CISA KEV、Google Project Zero カタログの活用など、セキュリティ対策の強化に貢献できると期待される。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询