핵심 개념
언어 표현을 시각 특징의 앵커로 활용하여 시각 정보와 의미 정보 간의 정렬을 향상시키고, 지역 합의 트랜스포머 디코더를 통해 잡음이 많은 시각 정보를 정제하여 제로샷 의미 분할 성능을 크게 향상시킨다.
초록
이 논문은 제로샷 의미 분할 문제를 다룹니다. 제로샷 의미 분할은 기존 방법들이 노동 집약적인 픽셀 단위 주석에 의존하는 한계를 극복하기 위해 제안된 기술입니다. 최근 등장한 비전-언어 사전 학습 모델인 CLIP이 이 문제에 큰 발전을 가져왔지만, 여전히 과적합 및 작은 조각화 문제가 존재합니다.
이 논문에서는 Language-Driven Visual Consensus (LDVC) 접근법을 제안합니다. 구체적으로:
- 언어 표현을 시각 특징의 앵커로 활용하여 시각 정보와 의미 정보 간의 정렬을 향상시킵니다.
- 지역 합의 트랜스포머 디코더를 도입하여 잡음이 많은 시각 정보를 정제하고 의미적 일관성을 높입니다.
- 비전-언어 프롬프트 튜닝 전략을 통해 CLIP의 제로샷 능력을 더욱 강화합니다.
실험 결과, 제안 방법은 기존 최신 방법 대비 PASCAL VOC 2012에서 4.5%, COCO-Stuff 164k에서 3.6% 더 높은 unseen 클래스 mIoU 성능을 달성했습니다.
통계
제안 방법은 PASCAL VOC 2012 데이터셋에서 unseen 클래스 mIoU가 4.5% 향상되었습니다.
제안 방법은 COCO-Stuff 164k 데이터셋에서 unseen 클래스 mIoU가 3.6% 향상되었습니다.
인용구
"언어는 더 추상적이고 구조화된 개념이므로, 언어 표현을 시각 특징의 앵커로 활용하면 새로운 데이터셋에 적응하면서도 CLIP에서 상속된 강력한 일반화 능력을 유지할 수 있습니다."
"지역 합의 트랜스포머 디코더를 통해 잡음이 많은 시각 정보를 정제하고 의미적 일관성을 높일 수 있습니다."