本論文では、オペレーショナル・テクノロジー(OT)システムのサイバー攻撃に対する防御RL(強化学習)エージェントの訓練を目的としたIPMSRL環境を拡張し、より現実的な動的を導入した。具体的には、偽陽性アラートと遅延アラートを追加した。
この拡張されたIPMSRL環境において、カリキュラム学習の適用により、最も困難な環境設定でエピソード報酬平均が-2.791から-0.569に改善された。アクションマスキングの適用では、同じ環境設定でエピソード報酬平均が-2.791から-0.743に向上した。
さらに、カリキュラム学習とアクションマスキングを組み合わせた手法が最も高いパフォーマンスを示し、エピソード報酬平均は0.137に達した。これは、ハードコーディングされた防御エージェントのパフォーマンス(-1.895)を大きく上回るものであった。
本研究の結果は、カリキュラム学習とアクションマスキングの適用が、オペレーショナル・テクノロジーのサイバーセキュリティ対策における強化学習エージェントの学習効率と全体的なパフォーマンスを大幅に向上させることを示している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Alec Wilson,... a las arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10563.pdfConsultas más profundas