비용 기반 접근법을 통해 CLIP 모델을 의미 분할 작업에 효과적으로 적응시킬 수 있다.
이미지-이미지 매칭을 통해 오픈 어휘 의미 분할의 오분류 문제를 해결하고자 한다.
CLIP 모델의 공간적 인식 능력 부족을 보완하기 위해 자기 지도 학습 모델인 DINO의 특성을 활용하여 CLIP 특징을 개선함으로써 오픈 어휘 의미 분할 성능을 크게 향상시킴.