แนวคิดหลัก
본 논문에서는 선형 attention 메커니즘과 State Space Model(SSM)의 장점을 결합하여 의료 영상 분할 작업의 정확도와 계산 효율성을 향상시키는 새로운 아키텍처인 MLLA-UNet을 제안합니다.
서론
본 논문은 의료 영상 분할을 위한 새로운 아키텍처인 Mamba-Like Linear Attention UNet (MLLA-UNet)을 제안합니다. 의료 영상 분할은 컴퓨터 지원 진단 및 치료 계획에서 중요한 역할을 합니다. 최근 의료 영상 기술의 발전으로 인해 해부학적 변이가 크고, 조직 경계가 모호하며, 장기 대비가 낮고, 영상 노이즈 및 아티팩트가 있는 복잡하고 다양한 의료 영상이 증가하고 있습니다. 이러한 복잡성으로 인해 기존의 분할 방법은 어려움을 겪고 있으며, 이러한 문제를 효과적으로 해결하기 위해서는 보다 발전된 기술이 필요합니다.
배경
Vision Transformers 및 Self-Attention 메커니즘
Vision Transformer(ViT)는 자연어 처리에서 Transformer 아키텍처를 적용하여 컴퓨터 비전에 혁명을 일으켰습니다. 이러한 모델의 핵심은 데이터의 장거리 종속성을 포착하는 self-attention 메커니즘입니다. Self-attention은 입력 특징 X를 쿼리 Q, 키 K 및 값 V로 투영합니다. attention 분포는 A = softmax( QKT
√
d )로 계산되고 출력은 Z = AV로 계산됩니다. 이를 통해 글로벌 컨텍스트 모델링이 가능합니다. ViT는 이미지를 패치로 분할하여 처리하며, 이러한 패치는 선형으로 투영되고 위치 임베딩과 결합됩니다. 그런 다음 다중 헤드 self-attention 및 피드포워드 네트워크로 구성된 Transformer 블록을 통해 처리됩니다.
Mamba 및 선형 Attention
최근 비전 모델의 발전은 계산 복잡성을 줄이면서 높은 성능을 유지하는 보다 효율적인 아키텍처로 이동하고 있습니다. 이 섹션에서는 비전 작업에서 Mamba 기반 모델과 선형 Attention 메커니즘의 등장을 검토하고 매개변수 효율성과 향상된 성능에 대한 기여를 강조합니다.
2D 의료 영상 분할을 위한 Mamba 모델
2D 의료 영상 분할의 최근 발전으로 다양한 의료 영상 방식과 해부학적 구조에 대한 혁신적인 솔루션을 제공하는 Mamba 기반 아키텍처가 크게 증가했습니다.
방법론
MLLA-UNet 아키텍처
제안된 MLLA-UNet은 의료 영상 분할을 위해 설계된 U-Shape 구조를 채택하며 스템 모듈, 특징 압축 단계 및 특징 확장 단계의 세 가지 주요 구성 요소로 구성됩니다. 이 구조는 MLLA를 새로운 다중 스케일 융합 전략과 결합하여 효율적인 다중 스케일 특징 추출 및 복잡한 해부학적 구조의 정밀 분할을 용이하게 합니다.
Mamba-Like Linear Attention (MLLA) 블록
MLLA 블록은 O(N)의 선형 복잡성을 유지하면서 장거리 종속성을 효율적으로 포착하도록 설계된 아키텍처의 핵심 구성 요소입니다.
EDSM 및 EUSM
EDSM은 공간적 차원을 줄이면서 동시에 채널 수를 늘리는 데 중추적인 역할을 하며, 이는 다음과 같이 공식화할 수 있습니다. 반대로 제안된 EUSM은 공간적 차원을 늘리면서 채널 수를 줄여 원본 이미지를 재구성하도록 설계되었습니다.
예측 헤드
예측 헤드는 대상 분할 차원과 일치하도록 특징 맵을 변환합니다.
손실 함수
분할 손실은 Cross-Entropy 및 Dice 손실을 결합합니다.
실험
구현 세부 정보
실험은 딥 러닝 프레임워크로 PyTorch 2.2.0을 사용하여 수행되었습니다. 모델은 RTX 4090 24GB가 장착된 시스템에서 학습되었습니다. 데이터 증강을 위해 스케일링 및 회전을 포함한 임의 변환을 입력 이미지에 적용했습니다. 학습 절차의 경우 기본 학습률 0.0001 및 가중치 감쇠 0.01로 AdamW 옵티마이저를 사용했습니다. 코사인 어닐링 학습률 스케줄러를 사용하여 기본 학습률에서 시작하여 1e −6까지 감소시키면서 에포크에 따라 학습률을 조정했습니다. 학습 및 검증 배치 크기는 일반적인 배치 크기 48로 데이터 세트 사양에 따라 설정되었습니다.
평가 지표
실험에서는 분할 성능을 평가하기 위해 Hausdorff Distance (HD95) 및 Dice Similarity Coefficient (DSC)의 두 가지 주요 지표를 사용합니다.
데이터 세트
실험에서는 FLARE22, AMOS22, ATLAS23, WORD, BTCV 및 ACDC의 6가지 다양한 의료 영상 분할 데이터 세트를 활용했습니다. 각 데이터 세트에 대해 데이터 분할을 위해 [23, 5, 7]을 따랐습니다. 모든 데이터 세트에서 일관성을 보장하기 위해 데이터 전처리에 대해 nnUNet[24] 표준 파이프라인을 엄격하게 준수했습니다.
결과
의료 영상 분할의 여러 데이터 세트에 대한 결과
MLLA-UNet은 nnUNet 파이프라인에 따라 표준화된 전처리 조건에서 특히 복잡한 다중 장기 분할 작업에서 다양한 의료 영상 데이터 세트에서 효과적임을 입증합니다. 뛰어난 성능은 실험 조건과 관련된 몇 가지 중요한 아키텍처 설계 선택을 통해 분석할 수 있습니다.
BTCV 다중 장기 데이터 세트의 결과
표 2는 BTCV 다중 장기 데이터 세트에서 다양한 분할 방법의 성능을 비교한 것입니다. MLLA-UNet은 85.28%의 가장 높은 전체 DSC와 12.96mm의 두 번째로 낮은 HD95를 달성하는 반면 MERIT-GCASCADE는 84.54%의 DSC로 10.38mm의 가장 낮은 HD95를 얻습니다. 개별 장기 분할의 경우 MLLA-UNet은 대동맥 88.85%, 담낭 77.10%, 왼쪽 신장 89.27%, 비장 92.53%, 위 87.38%의 여러 장기에서 가장 높은 DSC 점수를 달성합니다. 이 모델은 오른쪽 신장에서 84.51%, 간에서 95.53%의 경쟁력 있는 점수를 얻어 이러한 범주에서 2위를 차지했습니다. 췌장 분할의 경우 MSVM-UNet은 71.53%의 가장 높은 DSC를 달성하는 반면 MLLA-UNet 점수는 67.04%입니다. 이전 접근 방식과 비교하여 MLLA-UNet은 UNet(74.82% DSC) 및 Att-UNet(71.70% DSC)에 비해 상당한 개선을 보여줍니다. 2D D-LKA Net 및 PVT-EMCAD-B2와 같은 최근 방법은 각각 84.27% 및 83.63%의 DSC를 달성하는 반면 MSVM-UNet은 85.00%의 두 번째로 높은 전체 DSC를 얻습니다.
토의
각 아키텍처 구성 요소의 기여 분석
다양한 의료 영상 데이터 세트에 대한 실험 결과는 CT 및 MRI 데이터 세트 모두에서 입증된 바와 같이 특히 다양한 이미징 방식에서 다양한 해부학적 구조를 처리하는 데 MLLA-UNet의 효과를 입증합니다. LePE, CPE 및 RoPE의 조합을 통해 포괄적인 공간 관계 모델링이 가능하며, 이는 경계가 복잡한 장기에서 뛰어난 성능으로 입증됩니다. 예를 들어, 13개 장기 분할 작업이라는 어려운 과제가 있는 BTCV 데이터 세트에서 MLLA-UNet은 정확한 경계 묘사가 중요한 대동맥(88.85%)과 왼쪽 신장(89.27%)에서 가장 높은 DSC 점수를 달성합니다. 12.96mm의 HD95 지표는 정확한 경계 예측을 유지하는 데 있어 위치 인코딩 전략의 효과를 더욱 검증합니다.
업샘플링 및 다운샘플링 전략에 대한 Ablation 연구
의료 영상 분할을 위한 인코더-디코더 아키텍처를 개선하기 위해 WORD 데이터 세트에 대한 포괄적인 ablation 연구를 수행하여 MLLA-UNet 모델 내에서 다양한 업샘플링 및 다운샘플링 작업의 효능에 중점을 두었습니다. 결과는 표 4에 자세히 나와 있습니다. 이 연구에서는 DSC, HD95, GFLOP의 계산 수요 및 총 매개변수 수를 포함한 중요한 성능 지표를 평가합니다.
제안된 MLLA-UNet의 확장성
표 3에 설명된 모델 스케일링의 과제를 해결하기 위해 Huang et al.에서 영감을 받은 전략을 채택했습니다. [22], 모델 크기와 데이터 세트가 동시에 확장되었습니다. 표 5의 결과는 공유 장기 범주에 중점을 둔 여러 데이터 세트에서 성능을 평가한 것입니다. 특히, 이 확장된 데이터 세트로 학습했을 때 더 큰 MLLABase 모델이 가장 높은 성능을 달성하여 평균 Dice 점수가 90.28%를 기록했습니다. 이 결과는 과적합을 방지하고 일반화 기능을 효과적으로 향상시키기 위해 증가된 모델 용량과 다양한 학습 데이터 세트를 결합하는 효능을 강조합니다.
결론 및 향후 연구
본 논문에서는 Mamba에서 영감을 받은 디자인과 선형 attention 메커니즘을 통합한 의료 영상 분할을 위한 새로운 아키텍처인 MLLA-UNet을 소개했습니다. 이 접근 방식은 고해상도 이미지를 효율적으로 처리하는 동시에 장거리 종속성을 정확하게 포착하고 로컬 구조 정보를 보존합니다. MLLA-UNet의 핵심 혁신은 선형 attention과 State Space Model(SSM)의 장점을 결합하여 특징 추출에서 높은 표현력을 유지하면서 선형 계산 복잡도 O(n)를 달성하는 하이브리드 아키텍처에 있습니다. 또한 효율적인 다운샘플링 및 업샘플링 모듈을 특징으로 하는 혁신적인 대칭 샘플링 구조를 통해 모델의 기능을 더욱 향상시켰습니다. 광범위한 실험을 통해 제안된 MLLA-UNet이 다양한 의료 영상 데이터 세트에서 최첨단 성능을 달성하여 다양한 의료 영상 컨텍스트에서 방법의 광범위한 적용 가능성과 우수성을 보여주었습니다.
สถิติ
MLLATiny는 34.14M 매개변수와 14.66G FLOPs만으로 평균 Dice 유사 계수(DSC) 88.32%를 달성하여 해당 분야의 선