Core Concepts
본 연구는 시각적 두드러짐 탐지(SOD)와 위장 물체 탐지(COD) 작업을 효과적으로 통합하는 일반화된 모델 VSCode를 제안한다. VSCode는 기반 모델의 공통성을 활용하고 2D 프롬프트를 통해 도메인 및 작업별 특성을 학습한다. 또한 프롬프트 구분 손실 함수를 도입하여 공통성과 특성을 효과적으로 분리한다. 실험 결과, VSCode는 26개 데이터셋의 6개 작업에서 최신 기술을 능가하며, 미 학습 작업에 대한 제로샷 일반화 능력도 탁월하다.
Abstract
본 연구는 시각적 두드러짐 탐지(SOD)와 위장 물체 탐지(COD) 작업을 통합하는 일반화된 모델 VSCode를 제안한다.
먼저, 공통성 학습을 위해 VST 모델을 기반으로 한다. 이후 도메인별 프롬프트와 작업별 프롬프트를 도입하여 각각의 특성을 학습한다. 도메인 프롬프트는 RGB, 깊이, 열, 광류 등 다양한 모달리티의 고유한 특성을 학습하고, 작업 프롬프트는 SOD와 COD 작업의 차이를 학습한다. 또한 프롬프트 구분 손실 함수를 통해 공통성과 특성을 효과적으로 분리한다.
실험 결과, VSCode는 26개 데이터셋의 6개 작업에서 최신 기술을 능가하는 성능을 보였다. 특히 미 학습 작업인 RGB-D COD 작업에서도 제로샷 일반화 능력을 발휘하며 우수한 성과를 달성했다. 이는 2D 프롬프트와 프롬프트 구분 손실 함수가 작업 간 공통성과 특성을 효과적으로 학습할 수 있음을 보여준다.
Stats
본 연구에서 사용한 데이터셋은 총 26개이며, SOD 작업 6개, RGB-D SOD 작업 6개, RGB-T SOD 작업 3개, VSOD 작업 6개, RGB COD 작업 3개, VCOD 작업 2개로 구성된다.
각 작업별 대표 데이터셋의 성능 지표는 다음과 같다:
DUTS 데이터셋의 Sm 0.926, Fm 0.922, Em 0.960
NJUD 데이터셋의 Sm 0.944, Fm 0.949, Em 0.970
VT5000 데이터셋의 Sm 0.925, Fm 0.900, Em 0.959
SegV2 데이터셋의 Sm 0.946, Fm 0.937, Em 0.984
COD10K 데이터셋의 Sm 0.869, Fm 0.827, Em 0.942
CAD 데이터셋의 Sm 0.790, Fm 0.680, Em 0.853
Quotes
"시각적 두드러짐 탐지(SOD)와 위장 물체 탐지(COD)는 관련되면서도 구별되는 이진 매핑 작업이다."
"이러한 작업은 다중 모달리티를 포함하며, 공통점과 고유한 단서를 공유한다."
"기존 연구는 종종 복잡한 작업 특화 전문 모델을 사용하여, 이로 인해 중복성과 최적이 아닌 결과가 발생할 수 있다."