이 논문은 제로샷 의미 분할 문제를 다룹니다. 제로샷 의미 분할은 기존 방법들이 노동 집약적인 픽셀 단위 주석에 의존하는 한계를 극복하기 위해 제안된 기술입니다. 최근 등장한 비전-언어 사전 학습 모델인 CLIP이 이 문제에 큰 발전을 가져왔지만, 여전히 과적합 및 작은 조각화 문제가 존재합니다.
이 논문에서는 Language-Driven Visual Consensus (LDVC) 접근법을 제안합니다. 구체적으로:
실험 결과, 제안 방법은 기존 최신 방법 대비 PASCAL VOC 2012에서 4.5%, COCO-Stuff 164k에서 3.6% 더 높은 unseen 클래스 mIoU 성능을 달성했습니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zicheng Zhan... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08426.pdfConsultas más profundas