본 연구는 CLIP 모델의 한계를 분석하고 이를 개선하기 위한 방법을 제안한다. CLIP 모델은 이미지 수준의 작업에 최적화되어 있어 밀집 예측 작업인 의미 분할에는 적합하지 않다. 특히 CLIP의 비전 트랜스포머 인코더에서 패치 간 공간적 일관성이 부족하다는 문제점을 지적한다.
이를 해결하기 위해 다음과 같은 방법을 제안한다:
이러한 변경 사항을 적용한 NACLIP 모델은 8개의 오픈 어휘 의미 분할 벤치마크에서 최신 기술 수준을 달성하며, 추가 데이터나 보조 모델 없이도 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sina Hajimir... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08181.pdfDeeper Inquiries