본 연구는 CLIP 모델의 한계를 분석하고 이를 개선하기 위한 방법을 제안한다. CLIP 모델은 이미지 수준의 작업에 최적화되어 있어 밀집 예측 작업인 의미 분할에는 적합하지 않다. 특히 CLIP의 비전 트랜스포머 인코더에서 패치 간 공간적 일관성이 부족하다는 문제점을 지적한다.
이를 해결하기 위해 다음과 같은 방법을 제안한다:
이러한 변경 사항을 적용한 NACLIP 모델은 8개의 오픈 어휘 의미 분할 벤치마크에서 최신 기술 수준을 달성하며, 추가 데이터나 보조 모델 없이도 우수한 성능을 보인다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Sina Hajimir... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08181.pdfConsultas más profundas