이 논문은 제로샷 의미 분할 문제를 다룹니다. 제로샷 의미 분할은 기존 의미 분할 모델이 학습한 클래스 외에 새로운 클래스를 인식할 수 있게 하는 기술입니다.
저자들은 언어 기반 시각적 합의(LDVC) 접근법을 제안합니다. 이 방법은 다음과 같은 핵심 아이디어를 가지고 있습니다:
언어 표현을 시각 특징의 앵커로 활용하여 시각 정보와 의미 정보 간의 정렬을 향상시킴. 이를 통해 시각 공간을 더 구조화된 형태로 만들어 제로샷 성능을 높임.
지역 합의 트랜스포머 디코더를 도입하여 시각 정보에 존재하는 잡음을 효과적으로 제거함. 이를 통해 의미적 일관성을 높이고 세분화된 분할 마스크를 생성할 수 있음.
비전-언어 프롬프트 튜닝 전략을 활용하여 CLIP 모델의 제로샷 능력을 더욱 강화함.
실험 결과, 제안 방법은 PASCAL VOC 2012과 COCO-Stuff 164k 데이터셋에서 기존 최신 방법 대비 각각 4.5%와 3.6%의 mIoU 성능 향상을 보였습니다. 이를 통해 제안 방법의 우수한 제로샷 의미 분할 성능을 확인할 수 있습니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询