Spatial-Mamba 是一種新穎的視覺狀態空間模型,透過結構感知狀態融合(SASF)有效捕捉圖像空間依賴性,提升了模型對圖像上下文信息的建模能力,在圖像分類、目標檢測和語義分割等任務中展現出優於現有視覺狀態空間模型的性能。
本文提出了一種名為 QuadMamba 的新型視覺狀態空間模型,它利用基於四叉樹的圖像分割和掃描方法,有效地捕捉了不同粒度的局部依賴關係,從而在圖像分類、目標檢測、實例分割和語義分割等多種視覺任務中實現了最先進的性能。