Core Concepts
세그먼트 어닝 모델은 웹 규모의 데이터셋으로 사전 학습되었지만 다양한 하위 세그멘테이션 작업에서 부적절한 성능을 보였다. 우리는 약한 감독 하에서 자기 훈련을 통해 SAM을 적응시켜 일반화 능력을 향상시켰다.
Abstract
이 연구는 세그먼트 어닝 모델(SAM)의 일반화 문제를 다루고 있다. SAM은 웹 규모의 데이터셋으로 사전 학습되었지만 의료 이미지, 위장 이미지, 적대적 공격 등 다양한 하위 작업에서 부적절한 성능을 보였다. 이는 학습 데이터와 테스트 데이터 간의 분포 차이 때문으로 보인다.
전통적인 모델 강건성 및 일반화 향상 방법은 비용이 많이 들고 특정 도메인 변화에 맞춤화되어 있다. 따라서 우리는 사전 학습된 모델을 하위 데이터셋에 적응시키는 계산 효율적인 접근 방식을 제안한다.
제안하는 방법은 다음과 같다:
- 소스 도메인 데이터에 대한 의존성을 줄이기 위해 자기 훈련 기반 소스-프리 도메인 적응 전략을 채택한다.
- 잘못된 의사 레이블로 인한 자기 훈련의 취약성을 해결하기 위해 고정된 소스 모델을 앵커 네트워크로 사용하여 정규화한다.
- 모델 가중치 전체를 업데이트하는 것이 효과적이지만 메모리 비용이 많이 들기 때문에 저차원 가중치 업데이트 방식을 사용한다.
- SAM의 프롬프트 인코더와 완벽하게 호환되는 약한 감독 정보(경계 상자, 포인트, 거친 세그멘테이션 마스크)를 활용하여 자기 훈련의 효과를 높인다.
제안된 방법은 5가지 유형의 하위 세그멘테이션 작업에서 평가되었으며, 대부분의 작업에서 사전 학습된 SAM과 최신 도메인 적응 방법을 능가하는 성능을 보였다.
Stats
다양한 유형의 분포 변화에 대해 SAM의 성능이 크게 저하됨
소스 도메인 데이터에 대한 의존성, 높은 계산 비용, 잘못된 의사 레이블 등 SAM 적응의 주요 과제가 있음
Quotes
"The success of large language models has inspired the computer vision community to explore image segmentation foundation model that is able to zero/few-shot generalize through prompt engineering."
"Despite the overwhelming size of dataset used for training, SAM was found to behave awkwardly on certain out-of-distribution downstream tasks, including camouflaged segmentation, medical segmentation, adversarial attacks, visual corruptions, etc."