核心概念
提出了一种基于状态空间模型的语义分割框架 Samba,在高分辨率遥感影像上取得了优异的性能。
要約
本文提出了一种名为 Samba 的语义分割框架,旨在处理高分辨率遥感影像。Samba 采用编码器-解码器架构,其中编码器由 Samba 块组成,用于有效提取多尺度语义信息,解码器采用 UperNet 进行逐步上采样。
Samba 的核心在于将 Mamba 架构引入到视觉任务中,用于替代 ViT 中的多头自注意力机制。Mamba 基于状态空间模型,具有线性复杂度,能够高效捕捉全局语义信息,克服了 CNN 和 ViT 在处理高分辨率遥感影像时的局限性。
在 LoveDA 数据集上的实验结果表明,Samba 在不使用预训练参数的情况下,显著超越了当前最佳的 CNN 和 ViT 方法,创造了 Mamba 在遥感影像语义分割领域的新性能基准。这表明 Samba 是状态空间模型在遥感影像语义分割中的有效应用。
未来的研究方向包括:1) 探索将 Mamba 与 CNN 相结合,以增强对局部细节的提取能力;2) 研究针对 Mamba 架构的有效迁移学习方法;3) 探索 Mamba 在多通道遥感数据(如高光谱数据)语义分割中的应用。
統計
CNN的感受野在两次3x3卷积后变为7x7,这限制了其处理高分辨率影像的能力。
ViT通过将图像划分为多个patch并进行线性投影和嵌入,然后在编码器中进行多头自注意力计算,从而拥有全局感受野。
Samba在LoveDA数据集上的mIoU指标达到43.32%,显著超越了最佳的CNN方法(ConvNeXt,36.81%)和ViT方法(Swin-T,41.08%)。
引用
"CNN-based methods struggle with handling such high-resolution images due to their limited receptive field, while ViT faces challenges to handle long sequences."
"Samba utlized lower flops per patch and parameters than Swin-T, ResNet50, and ConvNeXt."