언어 표현을 시각 특징의 앵커로 활용하여 시각 정보와 의미 정보 간의 정렬을 향상시키고, 지역 합의 트랜스포머 디코더를 통해 잡음이 많은 시각 정보를 효과적으로 정제하여 제로샷 의미 분할 성능을 크게 향상시킴.
언어 표현을 시각 특징의 앵커로 활용하여 시각 정보와 의미 정보 간의 정렬을 향상시키고, 지역 합의 트랜스포머 디코더를 통해 잡음이 많은 시각 정보를 정제하여 제로샷 의미 분할 성능을 크게 향상시킨다.