Core Concepts
MaskSAM은 2D 자연 영상에서 사전 학습된 SAM 모델을 3D 의료 영상에 적응시키는 프롬프트 없는 마스크 분류 프레임워크이다. 이를 위해 이미지 인코더에 통합된 프롬프트 생성기를 설계하여 보조 분류기 토큰, 보조 이진 마스크 및 보조 경계 상자를 생성하고, 마스크 디코더에 학습 가능한 전역 분류기 토큰을 도입하여 각 예측 이진 마스크에 대한 의미 레이블 예측을 가능하게 한다. 또한 3D 깊이 컨볼루션 어댑터와 3D 깊이 MLP 어댑터를 도입하여 사전 학습된 2D SAM 모델이 3D 정보를 추출하고 3D 의료 영상에 적응할 수 있도록 한다.
Abstract
MaskSAM은 기존 SAM 구조를 유지하면서 설계된 블록을 삽입하여 2D 자연 영상에서 3D 의료 영상으로 적응하는 프레임워크이다.
프롬프트 생성기: 이미지 인코더에서 추출한 다중 수준의 특징 맵을 활용하여 보조 이진 마스크, 보조 경계 상자 및 보조 분류기 토큰을 생성한다. 이를 통해 추가 프롬프트 없이 의미 레이블 예측이 가능하다.
어댑터 설계: 3D 깊이 컨볼루션 어댑터와 3D 깊이 MLP 어댑터를 도입하여 사전 학습된 2D SAM 모델이 3D 정보를 추출하고 3D 의료 영상에 적응할 수 있도록 한다.
데이터 매핑: 다중 클래스 레이블을 각 클래스에 대한 이진 마스크로 변환하는 데이터 매핑 파이프라인을 설계하여 각 예측 이진 마스크에 의미 레이블을 할당할 수 있도록 한다.
실험 결과, MaskSAM은 AMOS2022, ACDC 및 Synapse 데이터셋에서 최신 기술을 능가하는 성능을 달성했다.
Stats
AMOS2022 데이터셋에서 nnUNet 대비 2.7% 향상된 Dice 점수를 달성했다.
ACDC 데이터셋에서 nnFormer 대비 1.3% 향상된 Dice 점수를 달성했다.
Synapse 데이터셋에서 nnFormer 대비 0.7% 향상된 Dice 점수를 달성했다.