Core Concepts
마스크 확산 모델(MDM)은 기존 확산 모델의 가우시안 노이즈 대신 마스킹 메커니즘을 사용하여 효과적인 자기 지도 학습 표현을 학습한다. MDM은 의미 분할 작업에서 기존 방법들을 크게 능가하는 성능을 보인다.
Abstract
이 논문은 확산 모델(diffusion model)의 생성 능력과 표현 학습 능력 간의 관계를 분해하고, 새로운 자기 지도 학습 방법인 마스크 확산 모델(Masked Diffusion Model, MDM)을 제안한다.
기존 확산 모델은 가우시안 노이즈를 점진적으로 추가하여 깨끗한 이미지를 생성하는 것을 목표로 한다. 반면 MDM은 마스킹 메커니즘을 사용하여 부분적으로 가려진 이미지를 복원하는 것을 목표로 한다. 이를 통해 의미 있는 표현을 학습할 수 있다.
또한 MDM은 기존 확산 모델에서 사용되던 평균 제곱 오차(MSE) 손실 함수 대신 구조적 유사성(SSIM) 손실 함수를 사용한다. 이는 생성 작업과 의미 분할 작업 간의 격차를 줄이는 데 도움이 된다.
실험 결과, MDM은 의료 이미지와 자연 이미지 데이터셋에서 의미 분할 작업의 성능을 크게 향상시켰다. 특히 적은 수의 레이블을 사용하는 few-shot 시나리오에서 두드러진 성과를 보였다.
Stats
마스크 확산 모델(MDM)은 기존 확산 모델(DDPM)보다 의미 분할 성능이 크게 향상되었다.
MDM은 10%의 레이블만 사용해도 DDPM과 유사한 수준의 성능을 달성할 수 있다.
MDM은 SSIM 손실 함수를 사용하여 생성 작업과 의미 분할 작업 간의 격차를 줄일 수 있었다.
Quotes
"우리는 확산 모델의 생성 능력과 표현 학습 능력 간의 관계를 분해한다."
"우리는 마스크 확산 모델(MDM)이라는 새로운 자기 지도 학습 패러다임을 제안한다."
"MDM은 기존 확산 모델의 가우시안 노이즈 대신 마스킹 메커니즘을 사용한다."