Core Concepts
확산 모델의 내부 표현을 활용하여 이미지 내 객체를 분할하고, 텍스트 정보와 매핑하는 훈련 없는 접근법을 제안한다.
Abstract
이 논문은 확산 모델의 내부 표현을 활용하여 이미지 내 객체를 분할하고, 텍스트 정보와 매핑하는 훈련 없는 접근법을 제안한다.
이미지를 확산 모델과 이미지 캡셔닝 모델에 입력하여 시각적 특징과 텍스트 설명을 각각 얻는다.
이 특징들을 사용하여 클래스 무관 마스크를 생성하고, 추출된 텍스트와 연결한다.
마스크 정제 단계를 거쳐 최종 분할 맵을 얻는다.
제안 방법은 훈련이 필요 없으며, Pascal VOC와 COCO 데이터셋에서 많은 훈련 기반 접근법을 능가하는 성능을 보인다.
확산 모델 특징이 다른 사전 훈련 모델 특징에 비해 우수한 지역화 능력을 가지고 있음을 보여준다.
Stats
이미지 분할 성능 평가 결과:
Pascal VOC 데이터셋에서 mIoU 53.27
COCO 데이터셋에서 mIoU 31.01