핵심 개념
사전 학습된 텍스트-이미지 Diffusion 모델의 잠재된 지식을 활용하여 도메인 일반화(DG) 의미론적 분할 작업에서 우수한 성능을 달성하는 새로운 방법론을 제시합니다.
초록
Diffusion Feature Fusion (DIFF) 및 암묵적 사후 지식 학습 (IPKL) 기반 의미론적 분할
본 연구는 사전 학습된 Diffusion 모델의 표현을 활용하여 도메인 일반화(DG) 의미론적 분할의 어려움을 해결하는 새로운 방법론인 Diffusion Feature Fusion (DIFF) 및 암묵적 사후 지식 학습 (IPKL)을 제안합니다.
이 연구의 주요 목표는 사전 학습된 텍스트-이미지 Diffusion 모델에 내재된 풍부한 사전 지식을 활용하여 도메인 변화에 강건한 의미론적 분할 모델을 개발하는 것입니다.
Diffusion Feature Fusion (DIFF): Diffusion 모델의 denoising U-Net에서 시각적 및 텍스트 의미 이해를 통합하기 위해 두 가지 특징 세트(중간 특징 및 cross-attention map)를 추출합니다. 전체 Diffusion 프로세스에서 추출된 여러 특징을 효과적으로 융합하기 위해 convolutional fusion block을 사용합니다.
암묵적 사후 지식 학습 (IPKL):
경로 제어 Diffusion: 텍스트 프롬프트와 추출된 특징 간의 일치성을 보장하기 위해 훈련 데이터에서 추출한 의미론적 주석(범주 설명 및 마스크)을 사용하여 Diffusion 프로세스를 안내합니다.
무조건 일관성 학습: 예측 중 텍스트 프롬프트가 없는 문제를 해결하기 위해 무조건 분기를 사용하고, 조건부 분기에서 학습된 암묵적 사후 지식을 증류하여 보이지 않는 데이터에 대한 일반화 성능을 향상시킵니다.