이 논문은 시계열 예측(TSF) 분야에서 Mamba 모델의 잠재력을 탐구한다. 저자들은 Mamba 기반의 두 가지 모델인 S-Mamba와 D-Mamba를 소개하였다. 이 모델들은 변수 간 정보 융합 작업을 Transformer 아키텍처에서 Mamba 블록으로 전환하였다. 다양한 데이터셋에 대한 평가 결과, S-Mamba와 D-Mamba는 GPU 메모리 사용량과 계산 오버헤드를 줄이면서도 TSF 분야에서 우수한 성능을 달성하였다. 또한 저자들은 Mamba가 Transformer를 능가할 수 있는 정도를 탐구하는 광범위한 실험을 수행하였다. 결과는 Mamba가 강력한 기능을 가지고 있으며 TSF 작업에서 Transformer를 대체할 수 있는 큰 잠재력을 보여준다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zihan Wang,F... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11144.pdfDomande più approfondite