이미지의 고유한 2D 구조적 상관관계를 유지하면서 전역 정보를 효과적으로 추출하기 위해 주파수 기반 전역 이미지 시퀀스화 방법을 제안하여 Vision Mamba 모델의 성능을 향상시킵니다.
従来のVision Mambaモデルにおける画像トークンの平坦化による因果関係の欠如と局所的な情報取得を、周波数ベースのグローバル画像シリアライゼーションを用いることで解決し、グローバルな特徴表現学習を実現するGlobalMambaを提案する。
QuadMambaは、画像の局所的な依存関係を効果的に捉えるために、四分木ベースの画像分割とスキャンを用いた、新しい視覚状態空間モデルである。