核心概念
提出一個機器學習管道,能自動從威脅情報源中偵測漏洞利用事件。
摘要
本研究提出了一個機器學習管道,用於自動分析和分類威脅情報源(TI Feeds)中的資訊。管道首先利用最新的自然語言處理技術,如Doc2Vec和BERT,從TI Feeds中提取語義資訊。然後使用監督式機器學習模型,針對檢測漏洞利用事件進行分類。
研究首先對TI Feeds進行了縱向分析,發現不同TI Feeds在提供的資訊類型和時間特性上存在差異。為了建立分類模型的訓練和測試集,研究人員手動標記了部分事件,並利用事件標籤自動擴充了標記集。
在分類模型的設計上,研究採用了Naive Bayes、決策樹和AdaBoost等不同算法,並比較了使用預訓練模型(Doc2Vec和BERT)與針對TI Feeds數據進一步訓練的定制模型(TI2Vec和TIBERT)的效果。結果顯示,TIBERT模型在縱向和橫向評估中均取得了最佳的分類性能,F1值達到78%。
此外,研究還分析了不同IoC類別對分類性能的影響,發現將不同類別的IoC綜合使用可以取得最佳效果。最後,研究探討了分類模型在未見過的TI Feeds上的泛化能力,發現當訓練集和測試集的IoC重疊度較高時,分類性能會更好。
總的來說,本研究提出的自動化分析管道為利用TI Feeds進行漏洞風險評估和事件響應提供了有價值的工具。未來可進一步擴展到檢測其他類型的漏洞生命週期事件。
統計資料
TI Feeds中包含平均429.3個IoC的事件。
TI Feeds中有87%的IoC屬於網路活動、有效載荷傳遞和外部分析三大類。
不同TI Feeds之間IoC的重疊度和流向存在差異,有些Feeds主要是IoC的來源,有些則主要是匯聚者。
引述
"TI Feeds現已成為協作式數據驅動安全的基石。"
"大量新的威脅資訊每天都在發佈,手工篩選已變得不可行。"
"檢測野外漏洞利用事件對於風險評估和事件響應至關重要。"