이 논문은 운영 기술 사이버 보안 환경에서 데이터 효율성과 전반적인 성능 향상을 위해 액션 마스킹과 커리큘럼 학습 기법을 적용하였다.
먼저, 기존 IPMSRL 환경에 거짓 양성 경보와 경보 지연과 같은 실제 상황의 역동성을 추가하여 환경의 난이도를 높였다.
이후 커리큘럼 학습을 적용한 결과, 가장 어려운 환경에서 평균 에피소드 보상이 -2.791에서 -0.569로 향상되었다. 액션 마스킹을 적용한 경우에도 평균 에피소드 보상이 -2.791에서 -0.743으로 향상되었다. 특히 액션 마스킹을 적용한 경우 100만 타임스텝 미만에서 이러한 성능을 달성하여 데이터 효율성이 크게 향상되었다.
커리큘럼 학습과 액션 마스킹을 함께 적용한 경우 가장 높은 평균 에피소드 보상 0.137을 달성하였다. 이는 기존 하드코딩된 방어 에이전트의 성능 (-1.895)을 크게 상회하는 수준이다.
이 연구 결과는 커리큘럼 학습과 액션 마스킹이 운영 기술 사이버 보안 위협 대응에 효과적인 방법임을 보여준다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Alec Wilson,... klo arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10563.pdfSyvällisempiä Kysymyksiä