Core Concepts
CLIP 모델의 공간적 인식 능력 부족을 보완하기 위해 자기 지도 학습 모델인 DINO의 특성을 활용하여 CLIP 특징을 개선함으로써 오픈 어휘 의미 분할 성능을 크게 향상시킴.
Abstract
이 논문은 CLIP 모델의 공간적 인식 능력 부족을 해결하기 위해 자기 지도 학습 모델인 DINO의 특성을 활용하는 CLIP-DINOiser 방법을 제안한다.
CLIP 모델은 이미지와 텍스트 간 정렬 능력이 뛰어나지만 밀집 컴퓨터 비전 작업에는 적합하지 않다. 반면 자기 지도 학습 모델인 DINO는 객체 위치 파악 능력이 뛰어나다.
CLIP-DINOiser는 CLIP 특징에 DINO 특징의 상관관계 정보를 결합하여 성능을 향상시킨다. 이를 위해 DINO 모델에서 추출한 상관관계 정보를 모방하는 단순한 합성곱 층을 학습한다.
또한 CLIP 특징에서 직접 객체성 정보를 학습하여 배경 필터링을 개선한다.
CLIP-DINOiser는 단일 CLIP 모델 순전파와 두 개의 경량 합성곱 층만으로 구현되며, 기존 방법 대비 COCO, Pascal Context, Cityscapes, ADE20k 등의 벤치마크에서 최신 성능을 달성한다.
Stats
CLIP 모델은 이미지와 텍스트 간 정렬 능력이 뛰어나지만 밀집 컴퓨터 비전 작업에는 적합하지 않다.
DINO 모델은 객체 위치 파악 능력이 뛰어나다.
CLIP-DINOiser는 CLIP 특징에 DINO 특징의 상관관계 정보를 결합하여 성능을 향상시킨다.
CLIP-DINOiser는 단일 CLIP 모델 순전파와 두 개의 경량 합성곱 층만으로 구현된다.
Quotes
"CLIP 모델은 임의의 텍스트 프롬프트와의 원활한 상호작용 덕분에 인상적인 제로샷 기능을 보여주지만, 공간적 인식 능력이 부족하여 의미 분할과 같은 밀집 컴퓨터 비전 작업에는 적합하지 않다."
"자기 지도 학습 표현 방법은 사람이 만든 주석 없이도 좋은 위치 파악 특성을 보여주었다."
"우리는 두 세계의 장점을 취하고 주석이 필요 없는 오픈 어휘 의미 분할 방법을 제안한다."