本研究提出了一個機器學習管道,用於自動分析和分類威脅情報源(TI Feeds)中的資訊。管道首先利用最新的自然語言處理技術,如Doc2Vec和BERT,從TI Feeds中提取語義資訊。然後使用監督式機器學習模型,針對檢測漏洞利用事件進行分類。
研究首先對TI Feeds進行了縱向分析,發現不同TI Feeds在提供的資訊類型和時間特性上存在差異。為了建立分類模型的訓練和測試集,研究人員手動標記了部分事件,並利用事件標籤自動擴充了標記集。
在分類模型的設計上,研究採用了Naive Bayes、決策樹和AdaBoost等不同算法,並比較了使用預訓練模型(Doc2Vec和BERT)與針對TI Feeds數據進一步訓練的定制模型(TI2Vec和TIBERT)的效果。結果顯示,TIBERT模型在縱向和橫向評估中均取得了最佳的分類性能,F1值達到78%。
此外,研究還分析了不同IoC類別對分類性能的影響,發現將不同類別的IoC綜合使用可以取得最佳效果。最後,研究探討了分類模型在未見過的TI Feeds上的泛化能力,發現當訓練集和測試集的IoC重疊度較高時,分類性能會更好。
總的來說,本研究提出的自動化分析管道為利用TI Feeds進行漏洞風險評估和事件響應提供了有價值的工具。未來可進一步擴展到檢測其他類型的漏洞生命週期事件。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문