Belangrijkste concepten
확산 모델을 활용하여 텍스트-시각 참조 임베딩을 오프라인으로 생성하고, 이를 이용해 지역-전역 유사도를 계산함으로써 학습 없이 오픈 어휘 의미 세그멘테이션을 수행하는 방법
Samenvatting
이 논문은 오픈 어휘 의미 세그멘테이션을 위한 새로운 학습 없는 접근법인 FreeDA를 제안한다. FreeDA는 다음과 같은 두 단계로 구성된다:
- 오프라인 단계:
- 대량의 캡션을 활용하여 확산 모델을 통해 텍스트-시각 참조 임베딩을 생성한다.
- 자기지도 학습 기반 시각 백본(DINOv2)을 사용하여 시각 프로토타입을 추출한다.
- 텍스트 임베딩과 시각 프로토타입을 연결하여 참조 데이터베이스를 구축한다.
- 추론 단계:
- 입력 이미지에서 슈퍼픽셀 기반의 지역 특징과 CLIP 기반의 전역 특징을 추출한다.
- 참조 데이터베이스에서 입력 텍스트 카테고리와 가장 유사한 시각 프로토타입을 검색한다.
- 지역 및 전역 유사도를 결합하여 최종 세그멘테이션 마스크를 예측한다.
실험 결과, FreeDA는 5개의 벤치마크 데이터셋에서 기존 방법들을 크게 능가하는 최신 성능을 달성했다. 특히 학습 없이도 7.0 mIoU 이상의 성능 향상을 보였다.
Statistieken
이 접근법은 학습 없이도 기존 방법들보다 7.0 mIoU 이상 향상된 성능을 달성했다.
FreeDA (ViT-L)는 Pascal VOC에서 87.9 mIoU, Cityscapes에서 36.7 mIoU, ADE20K에서 23.2 mIoU를 기록했다.
Citaten
"확산 모델의 교차 주의 메커니즘을 활용하여 생성된 이미지에서 단어 위치 정보를 추출할 수 있다."
"지역 및 전역 유사도를 결합하여 정확하고 강건한 세그멘테이션 예측을 달성할 수 있다."