Core Concepts
마이크로서비스 기반 시스템에서 발생할 수 있는 다양한 장애 유형을 효과적으로 분류하기 위해, 적은 수의 샘플 데이터만으로도 빠르게 적응할 수 있는 프레임워크를 제안한다.
Abstract
본 연구는 마이크로서비스 기반 시스템(MSS)에서 발생할 수 있는 다양한 장애 유형을 효과적으로 분류하기 위한 프레임워크를 제안한다. 이 프레임워크는 두 가지 핵심 구성 요소로 이루어져 있다:
다중 헤드 어텐션 오토인코더(MultiHAttenAE): 이 모듈은 MSS의 추적 데이터(span, log)를 융합하여 시스템 특화 저차원 추적 표현을 생성한다. 이를 통해 다양한 형식의 추적 데이터를 효과적으로 활용할 수 있다.
트랜스포머 인코더 기반 모델 불가지론적 메타 학습(TE-MAML): 이 모듈은 MultiHAttenAE에서 생성된 추적 표현을 활용하여 적은 수의 샘플 데이터로도 새로운 장애 유형을 효과적으로 분류할 수 있다. 또한 동일한 MSS 내에서뿐만 아니라 다른 MSS 간에도 학습된 지식을 전이할 수 있다.
실험 결과, 제안 프레임워크는 동일한 MSS 내에서 평균 93.26%와 85.2%의 정확도를 달성했으며, 서로 다른 MSS 간에도 평균 92.19%와 84.77%의 정확도를 달성했다. 이는 적은 수의 샘플 데이터로도 효과적으로 이상 추적을 분류할 수 있음을 보여준다. 또한 MSS 간 적응성을 통해 AIOps 도구의 일반화 능력을 향상시킬 수 있다.
Stats
트레인티켓 시스템의 기본 장애 유형에 대한 평균 고유 추적 수는 1117개이며, 최소 26개에서 최대 2309개까지 다양하다.
트레인티켓 시스템의 새로운 장애 유형에 대한 평균 고유 추적 수는 1275개이며, 최소 45개에서 최대 2546개까지 다양하다.
온라인부티크 시스템의 기본 장애 유형에 대한 평균 고유 추적 수는 565개이며, 최소 32개에서 최대 1018개까지 다양하다.
온라인부티크 시스템의 새로운 장애 유형에 대한 평균 고유 추적 수는 320개이며, 최소 34개에서 최대 902개까지 다양하다.