Khái niệm cốt lõi
실시간 수술 도구 분할을 위해 포인트 추적과 경량화된 Segment Anything 모델을 결합한 새로운 프레임워크를 제안한다. 이를 통해 높은 정확도와 효율성을 달성하여 임상 적용이 가능한 솔루션을 제공한다.
Tóm tắt
본 연구는 실시간 수술 도구 분할을 위한 새로운 프레임워크를 제안한다. 이 프레임워크는 포인트 추적 기술과 경량화된 Segment Anything 모델을 결합하여 구현되었다.
-
사전 처리 단계:
- CLIPSeg 또는 SAM을 사용하여 첫 번째 프레임의 초기 마스크를 생성한다.
- K-Medoids 클러스터링을 통해 초기 쿼리 포인트를 선택한다.
-
추적 및 분할 단계:
- CoTracker 포인트 추적기를 사용하여 쿼리 포인트를 비디오 전체에 걸쳐 추적한다.
- 추적된 쿼리 포인트를 입력으로 사용하여 경량화된 MobileSAM 모델로 분할을 수행한다.
-
모델 fine-tuning:
- MobileSAM 모델을 수술 장면에 맞게 fine-tuning하여 성능을 향상시킨다.
- 포인트 프롬프트 기반 fine-tuning 전략을 사용한다.
실험 결과, 제안된 프레임워크는 EndoVis 2015 및 UCL dVRK 데이터셋에서 우수한 성능을 보였으며, 40ms의 실시간 추론 속도를 달성했다. 또한 STIR 데이터셋에 대한 일반화 성능도 확인되었다.
Thống kê
제안된 프레임워크는 EndoVis 2015 데이터셋에서 XMem 대비 최대 3.2% 향상된 성능을 보였다.
UCL dVRK 데이터셋에서는 XMem과 유사한 수준의 성능을 달성했다.
단일 GeForce RTX 4060 GPU에서 약 40ms의 실시간 추론 속도를 달성했다.
Trích dẫn
"실시간 수술 도구 분할은 로봇 수술의 증강현실 및 수술 장면 이해 등 다양한 응용 분야에 필수적이다."
"SAM의 강력한 자동 마스크 생성 능력에도 불구하고, 실제 응용에서는 적절한 프롬프트가 필요하다."
"제안된 프레임워크는 TAP 기술과 경량화된 SAM 모델의 결합을 통해 우수한 성능과 효율성을 달성했다."