本研究旨在開發一個機器學習模型,能夠利用更多細粒度特徵來準確識別網站是否惡意,並進一步分類其具體的惡意行為類型。研究團隊提出了77個特徵,並建立了441,701個樣本的數據集,包含9種網站分類。他們將特徵分組,根據計算這些特徵所需的時間和資源,以及每個子集對模型性能的影響,逐步引入特徵子集。結果顯示,隨著引入更多特徵子集,模型的性能不斷提高。最終,他們的最佳模型能夠以95.89%的準確率將網站分類為9種類型。研究團隊還分析了這些特徵的重要性排名,發現URL嵌入特徵是最相關的,內容特徵也佔據了前10名的一半。其餘的重要特徵包括主機特徵、robots.txt特徵、詞彙特徵和被動域名系統特徵。
翻譯成其他語言
從原文內容
arxiv.org
深入探究