Concepts de base
訓練專精於安全日誌的語言模型 (SecEncoder) 能夠有效提升各種安全相關任務的效能,例如日誌分析、異常偵測、事件分類和威脅情報文件檢索等。
Résumé
SecEncoder 研究論文摘要
書目資訊
Muhammed Fatih Bulut, Yingqi Liu, Naveed Ahmad, Maximilian Turner, Sami Ait Ouahmane, Cameron Andrews, & Lloyd Greenwald. (2024). SecEncoder: Logs are All You Need in Security. arXiv preprint arXiv:2411.07528.
研究目標
本研究旨在探討訓練專精於安全日誌的語言模型 (SecEncoder) 是否能有效提升各種安全相關任務的效能。
研究方法
研究者使用超過 1TB 的公開和私有安全日誌數據,以 DeBERTa-v2 架構為基礎,訓練了不同大小的 SecEncoder 模型。他們採用客製化的遮罩語言模型 (MLM) 作為預訓練目標,並透過內部和公開基準測試來評估 SecEncoder 在日誌相似度、日誌搜尋、日誌異常偵測、事件分類和威脅情報文件檢索等任務上的表現。
主要發現
- SecEncoder 在多項安全相關任務上,相較於基於自然語言訓練的語言模型 (例如 BERT、DeBERTa 和 OpenAI 的嵌入模型) 表現更出色。
- 儘管 SecEncoder 主要使用日誌數據進行預訓練,但它在事件分類和威脅情報文件檢索等非日誌分析任務上也展現出良好的泛化能力。
- SecEncoder 嵌入可以有效地用於日誌子採樣和日誌模式偵測,進一步提升安全分析的效率。
主要結論
專精於特定領域的語言模型在處理特定領域任務時具有顯著優勢。SecEncoder 的成功證明了以安全日誌預先訓練語言模型的可行性和有效性,為未來開發更強大的安全專用語言模型奠定了基礎。
研究意義
本研究對於網路安全領域具有重要意義,它提供了一種新的方法來分析和利用大量的安全日誌數據。SecEncoder 的應用可以幫助安全分析師更有效地識別威脅、調查事件並提升整體安全態勢。
研究限制與未來方向
- SecEncoder 的效能受限於訓練數據的品質和多樣性。
- 未來研究可以探索更先進的模型架構和訓練方法,以進一步提升 SecEncoder 的效能和效率。
- 研究者也計劃將 SecEncoder 應用於更多安全相關任務,例如自動化威脅狩獵和安全事件響應。
Stats
研究者使用超過 1TB 的公開和私有安全日誌數據訓練 SecEncoder。
SecEncoder tokenizer 的詞彙量為 29,952 個。
最大的 SecEncoder 模型擁有 11 億個參數,使用 770 億個安全日誌 tokens 進行訓練,耗時約 4 週。
在日誌相似度測試中,SecEncoder 相較於基於自然語言訓練的模型有顯著提升 (0.46 vs. 0.10)。
在異常偵測任務中,SecEncoder 在無監督設定下,平均 F-1 分數比基於自然語言訓練的模型高出 20% (0.36 vs. 0.30)。
在日誌子採樣任務中,SecEncoder 的 greedy 方法平均比隨機採樣多返回 9% 的實體,比 TF-IDF+KNN 多返回 12% 的實體。
在日誌模式偵測任務中,SecEncoder 的準確率達到 0.57,比基線方法高出 14%。