핵심 개념
Mamba 모델을 다차원 데이터에 효과적으로 확장하여 기존 Transformer 모델 대비 성능 향상과 파라미터 수 감소를 달성하였다.
초록
이 논문은 최근 각광받고 있는 Transformer 모델의 한계점을 해결하기 위해 Mamba 모델을 다차원 데이터에 확장하는 Mamba-ND를 제안한다.
Mamba-ND의 핵심 설계는 다음과 같다:
- 1D Mamba 레이어를 기반으로 하며, 각 레이어에서 입력 데이터의 순서를 다양한 방향으로 번갈아 처리한다.
- 이를 통해 다차원 데이터에서도 전역적인 수용 영역을 확보하면서도 선형 복잡도를 유지할 수 있다.
- 다양한 실험을 통해 이 단순한 설계가 복잡한 설계보다 우수한 성능을 보임을 확인하였다.
Mamba-ND는 이미지 분류, 동작 인식, 날씨 예보, 3D 의료 영상 분할 등 다양한 다차원 데이터 작업에서 Transformer 모델 대비 성능 향상과 파라미터 수 감소를 달성하였다.
통계
ImageNet-1K 분류 작업에서 ViT 대비 3.8% 정확도 향상, 파라미터 수 20.7% 감소
HMDB-51 동작 인식 작업에서 Video Swin Transformer 대비 2.8% 정확도 향상, 파라미터 수 39% 감소
ERA5 날씨 예보 작업에서 Cli-ViT 대비 0.8% ACC 향상, 파라미터 수 44.5% 감소
BTCV 3D 의료 영상 분할 작업에서 UNETR 대비 2.7% DICE 점수 향상
인용구
"Mamba-ND는 Transformer 모델 대비 성능 향상과 파라미터 수 감소를 달성하였다."
"Mamba-ND의 단순한 설계가 복잡한 설계보다 우수한 성능을 보였다."