Muhammed Fatih Bulut, Yingqi Liu, Naveed Ahmad, Maximilian Turner, Sami Ait Ouahmane, Cameron Andrews, & Lloyd Greenwald. (2024). SecEncoder: Logs are All You Need in Security. arXiv preprint arXiv:2411.07528.
本研究旨在探討訓練專精於安全日誌的語言模型 (SecEncoder) 是否能有效提升各種安全相關任務的效能。
研究者使用超過 1TB 的公開和私有安全日誌數據,以 DeBERTa-v2 架構為基礎,訓練了不同大小的 SecEncoder 模型。他們採用客製化的遮罩語言模型 (MLM) 作為預訓練目標,並透過內部和公開基準測試來評估 SecEncoder 在日誌相似度、日誌搜尋、日誌異常偵測、事件分類和威脅情報文件檢索等任務上的表現。
專精於特定領域的語言模型在處理特定領域任務時具有顯著優勢。SecEncoder 的成功證明了以安全日誌預先訓練語言模型的可行性和有效性,為未來開發更強大的安全專用語言模型奠定了基礎。
本研究對於網路安全領域具有重要意義,它提供了一種新的方法來分析和利用大量的安全日誌數據。SecEncoder 的應用可以幫助安全分析師更有效地識別威脅、調查事件並提升整體安全態勢。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Muhammed Fat... at arxiv.org 11-13-2024
https://arxiv.org/pdf/2411.07528.pdfDeeper Inquiries