แนวคิดหลัก
본 논문에서는 제한된 레이블 데이터를 사용하여 변화 감지 성능을 향상시키기 위해 시각-언어 모델(VLM)을 활용한 새로운 준지도 학습 기반 변화 감지 방법론인 SemiCD-VL을 제안합니다.
บทคัดย่อ
SemiCD-VL: 시각-언어 모델 기반 준지도 학습 변화 감지
본 연구는 레이블링된 데이터 부족 문제를 해결하기 위해 시각-언어 모델(VLM)을 활용하여 준지도 학습 기반의 향상된 변화 감지 방법론을 제시하는 것을 목표로 합니다.
본 논문에서 제안된 SemiCD-VL은 VLM을 활용하여 레이블링 되지 않은 데이터에 대한 의사 레이블을 생성하고, 이를 통해 준지도 학습을 수행합니다.
핵심 구성 요소는 다음과 같습니다.
혼합 변화 이벤트 생성 (Mixed CEG): 픽셀 레벨 CEG와 인스턴스 레벨 CEG를 결합하여 보다 다양하고 신뢰할 수 있는 의사 레이블을 생성합니다.
VLM 안내 (VLM Guidance): 레이블링 되지 않은 샘플에 대해 VLM에서 생성된 의사 레이블을 사용하여 일관된 감독 신호를 제공합니다.
듀얼 프로젝션 헤드 (Dual Projection Head): 일관성 정규화 패러다임과 VLM에서 생성된 의사 레이블 간의 잠재적인 충돌을 방지하기 위해 서로 다른 감독 신호 소스를 분리합니다.
분리된 의미론적 안내 (Decoupled Semantic Guidance): VLM을 통해 각 시간대 이미지에 대한 개별적인 의미론적 분할 마스크를 생성하여 변화 감지 프로세스를 명확히 하고 추가적인 감독 신호를 제공합니다.
대조적 일관성 정규화 (Contrastive Consistency Regularization): 보조 분할 디코더에서 특징 수준의 대조적 손실을 구성하여 모델이 변화 표현을 보다 효율적으로 캡처하도록 합니다.