Core Concepts
データリサンプリング手法を適用することで、深層学習ベースのログ異常検知モデルの性能を向上させることができる。特に、過剰サンプリング手法は過少サンプリングや複合サンプリング手法よりも優れた性能を示す。また、特徴空間でのリサンプリングよりも、元のデータ上でのリサンプリングの方が効果的である。
Abstract
本研究は、深層学習ベースのログ異常検知(DLLAD)アプローチにおけるデータリサンプリングの影響を包括的に分析している。
まず、RQ1では、DLLAD手法の性能が、データの不均衡度合いによって大きく影響を受けることを示した。特に、極端な不均衡が見られるデータセットでは、DLLAD手法の性能が著しく低下する。
次にRQ2では、正常データと異常データのリサンプリング比率が、データリサンプリング手法の有効性に大きな影響を及ぼすことを明らかにした。過剰サンプリング手法は、異常データをより多く生成することで最大の効果を発揮する一方で、過少サンプリング手法は、正常データをより少なく削除することで最適な性能を示す。ハイブリッド手法については、最適なリサンプリング比率を特定するのが困難であった。
最後にRQ3では、データリサンプリング手法の適用により、DLLAD手法の性能が全体的に向上することを確認した。特に、過剰サンプリング手法、なかでも元のデータ上でのランダムオーバーサンプリングが最も効果的であった。一方で、一部の過少サンプリング手法やハイブリッド手法は、DLLAD手法の性能向上に限定的な効果しか示さなかった。
本研究の結果から、DLLAD分野における研究者や実践者に対して、以下の提言を行う。1) 過少サンプリングや複合サンプリングよりも、過剰サンプリングを優先的に適用すること。2) 特徴空間でのリサンプリングよりも、元のデータ上でのリサンプリングを選択すること。ただし、極端な不均衡が見られるデータセットでは、SMOTEENNの使用は避けるべきである。
Stats
異常データが全体の0.16%~0.35%しか占めていないThunderbirdデータセットでは、DLLAD手法の性能が著しく低下する。
Quotes
"DLLAD models trained on highly imbalanced datasets exhibit low precision or recall values. Low recall leads to missed anomalies, leaving potential threats undetected, while low precision generates numerous false alarms, causing alert fatigue and resource wastage on normal logs [1], [12], [13]."