핵심 개념
다변량 시계열 예측에서 인코더의 어텐션 메커니즘은 피드포워드, 스킵 연결 및 레이어 정규화 연산으로 구성된 MLP로 대체될 수 있으며, 이는 상당한 성능 저하 없이 계산 복잡성을 크게 줄일 수 있습니다.
초록
MLP를 이용한 어텐션 근사: 다변량 시계열 예측에서 어텐션 기반 모델의 가지치기 전략
본 연구 논문은 시공간 예측(STF) 및 장기 시계열 예측(LTSF)을 포함한 시계열 예측 작업에서 널리 사용되는 어텐션 기반 아키텍처의 효율성에 대한 이해를 향상시키는 것을 목표로 합니다. 특히, 인코더의 어텐션 메커니즘을 다변량 시계열 예측에서 시간 및/또는 공간 모델링을 위해 피드포워드, 스킵 연결 및 레이어 정규화 연산으로 구성된 MLP로 대체하는 방법을 제안합니다.
어텐션 기반 모델의 비효율성
어텐션 기반 모델은 시계열 데이터 내의 시간적 및 공간적 의존성을 모델링하는 데 효과적이지만, 높은 계산 비용으로 인해 자원 제약적인 장치에 배포하기 어렵고 많은 노드가 있는 데이터 세트로 확장하는 데 제한적입니다.
MLP를 이용한 어텐션 근사
본 논문에서는 인코더의 어텐션 메커니즘을 MLP로 대체하여 계산 복잡성을 줄이는 동시에 성능 저하를 최소화하는 방법을 제시합니다. 구체적으로, Q, K, V 투영, 어텐션 점수 계산, 어텐션 점수와 V 사이의 내적, 최종 투영은 주어진 네트워크가 다른 SOTA 방법과 비교하여 최상위 수준을 유지하는 성능을 크게 저하시키지 않고 어텐션 기반 네트워크에서 제거할 수 있습니다.
실험 결과
시공간 네트워크의 경우 MLP-대체-어텐션 네트워크는 2.5% 미만의 성능 손실로 FLOPS를 62.579% 감소시킵니다.
LTSF의 경우 2% 미만의 성능 손실로 FLOPS를 42.233% 감소시킵니다.
MLP-대체-어텐션 모델의 이점
계산 효율성 향상: MLP는 어텐션 메커니즘보다 계산 복잡성이 훨씬 낮아 추론 속도를 높이고 메모리 사용량을 줄입니다.
성능 저하 최소화: 실험 결과는 MLP로 어텐션 메커니즘을 대체해도 예측 성능이 크게 저하되지 않음을 보여줍니다.
모델 배포 및 확장성 향상: MLP-대체-어텐션 모델은 자원 제약적인 장치에 배포하고 더 큰 데이터 세트로 확장하는 데 더 적합합니다.