這篇研究論文介紹了一種運用強化學習 (RL) 的新型模型,旨在優化網路事件回應過程中的惡意軟體鑑識調查。該模型旨在通過減少誤報並使當前實務做法適應不斷演變的惡意軟體特徵來提高鑑識調查的效率。
在事件後惡意軟體鑑識調查中,惡意軟體的偵測和分類是重建證據檔案的關鍵過程。這是因為惡意軟體作為一種惡意程式,可能導致機密資訊遭到未經授權的訪問,危及資料或資訊系統的安全性和完整性,從而對相關系統和機構構成重大威脅。傳統的機器學習 (ML) 方法雖然被廣泛用於偵測各種惡意軟體,但日益複雜的惡意軟體可以繞過這些技術。
本研究旨在利用強化學習 (RL) 技術改進惡意軟體鑑識調查。主要重點是識別、分析和增強事件後調查的模型。因此,目標是加快鑑識過程,並減輕英國法律體系內的不公正現象。此外,本研究還試圖通過應用 RL 來改進基於啟發式和基於簽章的分析方法,從而增強整體網路安全措施。基於這些目標,本研究還旨在解決一個核心問題:強化學習模型在區分良性和惡意軟體方面的效果如何,以及有哪些潛在的改進空間?
為了實施和驗證所提出的強化學習惡意軟體調查框架,研究人員使用倫敦都會大學數位鑑識實驗室建立了一個全面的惡意軟體資料集。他們在一個安全的網路中設置了 13 台虛擬機器,以防止惡意軟體意外傳播。他們上傳了不同 ISO 檔案的 Windows 作業系統,以確保測試環境的多樣性。他們在每台虛擬機器中植入惡意軟體,拍攝了受感染和未受感染狀態的快照,並生成了 26 個 RAM 檔案。為了揭示惡意軟體的行為,他們使用 Volatility 框架分析了這些檔案。最後,他們建立了一個詳細的工作流程圖,以便於模型的訓練和驗證。
研究方法涵蓋了實驗設置、資料集生成和惡意軟體分析工作流程的開發。此工作流程是強化學習框架的核心,整合了資料收集、檢查和分析等技術。研究人員使用 Volatility 框架分析了來自 13 個版本的 Windows(包括受感染和未受感染的版本)的實時記憶體傾印,以偵測異常和惡意軟體痕跡。分析階段採用了靜態、基於簽章、基於行為的技術以及機器學習演算法。工作流程圖繪製了典型的惡意軟體行為,並改進了事件後鑑識調查,支援強化學習模型的訓練和驗證。
研究人員簡要定義了 Q 學習中的關鍵術語,包括環境、代理、狀態、動作、情節、Q 表、時間差分、學習率、策略、折扣因子和貝爾曼方程式。
統一馬可夫決策過程 (MDP) 將所有 MDP 子部分整合到一個單一過程中,提供了一個全面的視角。這種綜合允許代理有效地在環境中導航,並就惡意軟體調查做出明智的決策。
強化學習事件後惡意軟體調查框架的六個主要部分包括資料收集、工作流程圖映射、MDP 模型實施、環境依賴關係、MDP 求解器以及持續學習和適應。
演算法 1 實現了 Q 學習,以訓練代理進行最佳決策。它初始化了一個零值 Q 表,表示代理對環境的理解,其中行是狀態,列是動作。
演算法 2 是一種在多個環境中使用不同學習率 (LR) 訓練和儲存模型的演算法。
研究人員提出了三種 MDP 環境:BlankEnvironment、BlankEnvironment_with_Rewards 和 BlankEnvironment_with_Time,每種環境都有不同的獎勵機制來優化惡意軟體分析。
BlankEnvironment 類別繼承自 gym.Env,表示其預期用途是作為一個健身房環境。
與 BlankEnvironment 相比,BlankEnvironment_with_Rewards 的實現完全不同。在 BlankEnvironment_with_Rewards 中,導致終止狀態的操作會獲得 2 的獎勵,而在 BlankEnvironment 中則會獲得 -0.04 的獎勵。
在 BlankEnvironment_with_Time 中,代理每一步都會受到更嚴重的負面獎勵 -0.1,而其他兩種環境中的標準懲罰為 -0.04。這種技術旨在鼓勵代理通過採取最直接的路徑來有效地識別惡意檔案,從而阻止任何多餘的操作。
研究人員實現了一個 Python 代碼,並在一定範圍的學習率 (0.001-0.9) 上迭代了三個 MDP 環境。
研究人員實現了一個 Python 代碼,以視覺化三種 MDP 環境(env_new1、env_new2 和 env_new3)的收斂速度,分別代表 BlankEnvironment、BlankEnvironment_with_Rewards() 和 BlankEnvironment_with_Time()。
研究人員匯入了子流程模組,以允許 Python 腳本產生新的流程,並管理它們的輸入/輸出/錯誤管道和返回代碼。
研究人員實現了一個 Python 腳本,初始化了兩個列表,ideal_list 和 pred_list,其中包含表示我們強化學習 MDP 環境中特定狀態的操作的整數值。
為了比較預測操作與理想操作的準確性,研究人員實現了一個名為 get_acc 的 Python 函數。
實現的 Python 函數 get_acc 處理由字典(q1_dict、q2_dict 和 q3_dict)表示的多個環境(env1、env2 和 env3)。
由於使用我們提出的強化學習事件後惡意軟體調查模型跟踪狀態變化,我們獲得了基於操作和著陸狀態的軌跡,這些軌跡控制著環境中一系列的狀態變化。
本研究探討了使用強化學習 (RL) 進行事件後惡意軟體鑑識分析,強調了 RL 在適應不斷變化的惡意軟體威脅方面日益重要的作用。通過基於 Q 學習的結構化 RL 工作流程自動化鑑識任務,特別是惡意軟體痕跡識別,該模型可以有效地識別和分類惡意軟體。
本文提出了一種用於事件後惡意軟體鑑識調查的新型強化學習 (RL) 模型和框架,旨在超越人類鑑識專家的能力。該模型通過整合各種技術(例如從 Windows 系統中提取實時記憶體傾印)來加速惡意軟體分析並識別已知和未知威脅。研究人員開發了一個統一的馬可夫決策過程 (MDP) 框架,該框架具有三種環境:BlankEnvironment、BlankEnvironment_with_Rewards 和 BlankEnvironment_with_Time,每種環境都有不同的獎勵機制來優化惡意軟體分析。RL 代理利用 Q 學習和 epsilon-greedy 探索,迭代地改進其策略和決策過程,從而提高惡意軟體識別的準確性。實驗測試(包括使用 WannaCry 和 Cerber 等惡意軟體進行的模擬)表明,效能取決於學習率和環境複雜性。該研究重點關注超參數調整和持續學習,以提高 RL 模型的效能。它表明,獎勵系統、特徵提取和混合分析都可以進一步優化。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Dipo Dunsin,... في arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.15028.pdfاستفسارات أعمق