핵심 개념
본 논문에서는 LSEAttention이라는 새로운 접근 방식을 통해 트랜스포머 모델의 엔트로피 붕괴 문제를 해결하여 다변량 시계열 예측에서 기존 선형 모델 및 최첨단 트랜스포머 모델 대비 우수한 성능을 달성했습니다.
초록
LSEAttention 기반 시계열 예측 논문 분석
본 연구 논문에서는 다변량 장기 시계열 예측 작업에서 트랜스포머 모델의 엔트로피 붕괴 문제를 해결하기 위해 LSEAttention이라는 새로운 접근 방식을 제안합니다.
본 연구는 다변량 시계열 예측에서 트랜스포머 모델의 성능 저하의 주요 원인으로 꼽히는 엔트로피 붕괴 현상을 완화하고, 이를 통해 예측 성능을 향상시키는 것을 목표로 합니다.
기존 트랜스포머 모델의 attention 매커니즘에서 발생하는 엔트로피 붕괴 현상을 완화하기 위해 Log-Sum-Exp (LSE) 트릭을 도입하여 softmax 함수의 수치적 안정성을 향상시켰습니다.
Gaussian Error Linear Unit (GELU) 활성화 함수를 사용하여 attention 점수의 급격한 변화를 완화하고 안정적인 학습을 가능하게 했습니다.
Parametric ReLU (PReLU) 활성화 함수를 사용하여 기존 ReLU 함수의 단점인 "dying ReLU" 문제를 해결하고, 음수 입력에 대한 학습 능력을 향상시켰습니다.
Reversible Instance Normalization을 도입하여 학습 데이터와 테스트 데이터 간의 분포 차이를 줄여 모델의 일반화 성능을 높였습니다.