이 논문은 오픈 어휘 의미 분할(OVS) 문제에 대한 새로운 접근법을 제안한다. OVS는 이미지의 모든 픽셀에 대해 대규모 어휘에서 정확한 의미 레이블을 할당하는 것을 목표로 한다. 기존 접근법은 픽셀 그룹화 방법이나 영역 인식 방법을 사용하지만, 이미지 특징과 범주 레이블 간의 오분류 문제가 발생한다.
이 논문에서는 이미지-이미지 매칭 관점에서 이 문제를 해결하고자 한다. 먼저 안정 확산 모델과 SAM을 활용하여 이미지 모달 참조 특징을 구축한다. 그 다음 DINOv2 특징 공간에서 관계 인식 기반 매칭을 수행한다. 이를 통해 텍스트-이미지 매칭의 모호성을 해결하고 범주 간 관계 정보를 활용하여 더 강건한 영역 분류를 달성한다.
실험 결과, 제안 방법인 RIM이 기존 최신 방법들을 크게 능가하는 성능을 보였다. 특히 PASCAL VOC 벤치마크에서 10% 이상의 mIoU 향상을 달성했다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問