Concetti Chiave
제안된 CAT-SAM은 Segment Anything Model의 이미지 인코더와 마스크 디코더를 조건부로 동시에 튜닝하여 다양한 도메인에 대한 데이터 효율적 적응을 달성한다.
Sintesi
이 논문은 Segment Anything Model (SAM)의 데이터 효율적 적응 방법을 제안한다. SAM은 일반 이미지 세그멘테이션에서 뛰어난 성능을 보이지만, 희소 데이터 또는 훈련 분포 외부의 도메인에서는 성능이 저하된다. 이를 해결하기 위해 저자들은 CAT-SAM이라는 조건부 튜닝 네트워크를 제안한다.
CAT-SAM은 SAM의 전체 네트워크를 동결하고, 이미지 인코더와 마스크 디코더에 소량의 학습 가능한 매개변수를 추가한다. 그러나 이미지 인코더가 마스크 디코더보다 훨씬 크기 때문에 튜닝 불균형이 발생할 수 있다. 이를 해결하기 위해 저자들은 프롬프트 브릿지라는 구조를 도입하여 마스크 디코더의 도메인 특정 특징을 이미지 인코더로 전달한다. 이를 통해 두 네트워크 구성 요소의 시너지 적응을 달성한다.
저자들은 프롬프트 튜닝과 어댑터 기반 튜닝 전략을 사용하여 두 가지 CAT-SAM 변형을 개발했다. 11개의 다양한 세그멘테이션 데이터셋에 대한 실험 결과, 제안된 CAT-SAM 변형들은 매우 제한된 수의 타겟 샘플에서도 우수한 성능을 달성했다.
Statistiche
SAM의 이미지 인코더는 308.3M개의 매개변수를 가지고 있지만, CAT-SAM-T와 CAT-SAM-A는 각각 3.3M과 1.9M개의 추가 매개변수만 가진다.
CAT-SAM-T와 CAT-SAM-A는 WHU 데이터셋에서 각각 86.8%와 88.2%의 마스크 IoU를 달성했다 (1샷 적응).
CAT-SAM-T와 CAT-SAM-A는 JSRT 데이터셋에서 각각 93.0%와 92.6%의 mIoU를 달성했다 (1샷 적응).
Citazioni
"CAT-SAM은 SAM의 이미지 인코더와 마스크 디코더를 조건부로 동시에 튜닝하여 시너지 적응을 달성한다."
"제안된 프롬프트 브릿지 구조는 마스크 디코더의 도메인 특정 특징을 이미지 인코더로 전달하여 튜닝 불균형을 해결한다."