본 연구는 2D 자연 영상에서 사전 학습된 SAM 모델을 3D 의료 영상에 적응시키기 위한 프롬프트 없는 마스크 분류 SAM 적응 프레임워크인 MaskSAM을 제안한다. MaskSAM은 SAM의 이미지 인코더와 결합된 프롬프트 생성기를 통해 보조 분류기 토큰, 보조 이진 마스크 및 보조 경계 상자를 생성하여 추가 프롬프트 요구 사항을 해결하고, 마스크 디코더 내의 학습 가능한 전역 분류기 토큰과 결합하여 예측된 각 이진 마스크에 대한 의미 레이블 예측 기능을 제공한다. 또한 3D 깊이 컨볼루션 어댑터와 3D 깊이 MLP 어댑터를 각각 이미지 인코더와 마스크 디코더의 각 변환기 블록에 삽입하여 사전 학습된 2D SAM 모델이 3D 정보를 추출하고 3D 의료 영상에 적응할 수 있도록 한다.
프롬프트 없이 의료 영상 분할을 수행할 수 있도록 SAM을 개선한 MaskSAM 프레임워크를 제안한다. 프롬프트 생성기를 통해 보조 마스크와 경계 상자 프롬프트를 생성하고, 마스크 디코더에 학습 가능한 전역 분류기 토큰을 추가하여 의미 레이블 예측 기능을 제공한다. 또한 3D 깊이 컨볼루션 어댑터와 3D 깊이 MLP 어댑터를 도입하여 2D SAM을 3D 의료 영상에 적응시킨다.
MaskSAM은 2D 자연 영상에서 사전 학습된 SAM 모델을 3D 의료 영상에 적응시키는 프롬프트 없는 마스크 분류 프레임워크이다. 이를 위해 이미지 인코더에 통합된 프롬프트 생성기를 설계하여 보조 분류기 토큰, 보조 이진 마스크 및 보조 경계 상자를 생성하고, 마스크 디코더에 학습 가능한 전역 분류기 토큰을 도입하여 각 예측 이진 마스크에 대한 의미 레이블 예측을 가능하게 한다. 또한 3D 깊이 컨볼루션 어댑터와 3D 깊이 MLP 어댑터를 도입하여 사전 학습된 2D SAM 모델이 3D 정보를 추출하고 3D 의료 영상에 적응할 수 있도록 한다.