核心概念
본 논문에서는 시간적 프롬프트를 활용하여 UNet 기반 의료 영상 분할 모델의 성능을 향상시키는 TP-UNet 프레임워크를 제안합니다.
摘要
TP-UNet: 시간적 프롬프트 기반 의료 영상 분할
본 연구 논문에서는 시간 정보를 활용하여 의료 영상 분할 작업의 정확도를 향상시키는 새로운 딥러닝 프레임워크인 TP-UNet을 소개합니다. 저자들은 기존 UNet 기반 접근 방식이 스캔된 의료 영상에 존재하는 시간 정보를 고려하지 못한다는 점을 지적하며, 이러한 정보를 통합하면 특히 여러 시간적 프레임에서 얻은 이미지 시퀀스를 분석할 때 분할 결과를 개선할 수 있다고 주장합니다.
본 연구의 주요 목표는 시간 정보를 UNet 프레임워크에 효과적으로 통합하여 의료 영상 분할의 정확성을 향상시키는 것입니다.
TP-UNet은 시간적 프롬프트를 활용하여 UNet 모델의 학습 프로세스를 안내합니다. 시간적 프롬프트는 의료 영상에서 의미 및 순차 정보를 학습하도록 모델을 안내하는 텍스트 신호를 제공합니다.
주요 구성 요소는 다음과 같습니다.
시간적 프롬프트: "This is {an MRI / a CT} of the {organ} with a segmentation period of {N th i /N}." 형식의 텍스트 프롬프트를 사용하여 모델에 시간 정보를 제공합니다. 여기서 {N th i /N}는 전체 슬라이스 세트 내에서 특정 슬라이스의 시간적 위치를 나타냅니다.
다중 모달 인코더: 텍스트 기반 시간적 프롬프트와 분할해야 하는 의료 이미지를 처리하기 위해 다중 모달 인코더를 설계했습니다. 텍스트 모달에는 CLIP와 Electra의 두 가지 인코딩 방법을 적용했습니다. 의료 이미지 모달의 경우 기존 UNet을 사용하여 저수준 의미를 추출했습니다.
의미 정렬 모듈: 텍스트 프롬프트와 이미지 모달 간의 의미적 차이를 해소하기 위해 의미 정렬 모듈을 도입했습니다. 이 모듈은 비지도 대조 학습을 사용하여 두 모달의 의미 표현을 정렬합니다.
모달 융합: 정렬된 텍스트 및 이미지 표현을 집계하기 위해 교차 주의 메커니즘을 사용했습니다. 이렇게 하면 UNet 모델의 디코더에 입력으로 사용되는 통합 표현이 생성됩니다.