核心概念
大型語言模型 (LLM) 在零樣本時間序列異常檢測方面展現潛力,尤其在預測方法中,但與深度學習模型相比,其性能仍有差距。
本研究論文探討大型語言模型 (LLM) 是否可應用於時間序列資料的異常檢測。作者提出一個名為 SIGLLM 的框架,包含將時間序列資料轉換為文字的模組,以及兩種不同的異常檢測方法:PROMPTER 和 DETECTOR。
PROMPTER:透過提示進行異常檢測
此方法透過設計文字提示,直接詢問 LLM 序列中哪些部分存在異常。實驗結果顯示,MISTRAL 模型在 PROMPTER 方法中表現優於 GPT 模型,但整體而言,此方法容易產生過多誤報。
DETECTOR:透過預測進行異常檢測
此方法利用 LLM 的時間序列預測能力,透過比較原始訊號和預測訊號之間的差異來找出異常。實驗結果顯示,DETECTOR 方法的整體表現優於 PROMPTER 方法,且在某些資料集上甚至能與傳統統計方法 (如 ARIMA) 相媲美。
與現有方法的比較
相較於基於 Transformer 的異常檢測模型,DETECTOR 方法在部分資料集上展現更優異的性能。然而,與深度學習模型相比,LLM 的異常檢測性能仍有顯著差距。
總結
研究結果顯示,LLM 在零樣本時間序列異常檢測方面具有一定潛力,尤其在預測方法中。然而,目前 LLM 的性能仍落後於深度學習模型,未來仍有提升空間。
統計資料
DETECTOR 方法在使用平方誤差和中位數訊號的組合時,平均 F1 分數最高。
與基於 Transformer 的方法相比,基於 LLM 的方法在 F1 分數上高出 12.5%。
與深度學習方法相比,基於 LLM 的方法在 F1 分數上平均低 18%。
AER 模型是目前性能最佳的深度學習模型,其 F1 分數比基於 LLM 的方法高出 30%。