이 논문은 2D 자연 영상에서 사전 학습된 SAM(Segment Anything Model) 모델을 3D 의료 영상 분할에 효율적으로 적용하기 위한 전체적인 적응 방법을 제안한다.
첫째, 이미지 인코더 부분에서는 2D 트랜스포머 구조를 3D로 수정하여 3D 공간 정보를 효과적으로 학습할 수 있도록 하였다. 대부분의 사전 학습된 가중치를 재사용할 수 있도록 하면서도 3D 공간 정보를 잘 포착할 수 있도록 하였다.
둘째, 프롬프트 인코더 부분에서는 기존의 위치 인코딩 대신 시각적 샘플러를 사용하여 3D 포인트 프롬프트를 효과적으로 표현할 수 있도록 하였다. 또한 전역 쿼리를 도입하여 노이즈가 있는 프롬프트에 대한 강건성을 높였다.
셋째, 마스크 디코더 부분에서는 3D CNN 기반의 경량 구조를 사용하고 다중 레이어 집계 메커니즘을 도입하여 작은 크기와 불명확한 경계를 가진 종양 분할에 효과적이도록 하였다.
실험 결과, 제안 방법은 기존 의료 영상 분할 SOTA 모델들을 뛰어넘는 성능을 보였으며, 특히 췌장 종양과 대장암 분할에서 각각 29.87%, 10.11%의 Dice 점수 향상을 보였다. 또한 기존 적응 방법들과 비교해서도 우수한 성능을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問