이 논문은 확산 모델(diffusion model)의 생성 능력과 표현 학습 능력 간의 관계를 분해하고, 새로운 자기 지도 학습 방법인 마스크 확산 모델(Masked Diffusion Model, MDM)을 제안한다.
기존 확산 모델은 가우시안 노이즈를 점진적으로 추가하여 깨끗한 이미지를 생성하는 것을 목표로 한다. 반면 MDM은 마스킹 메커니즘을 사용하여 부분적으로 가려진 이미지를 복원하는 것을 목표로 한다. 이를 통해 의미 있는 표현을 학습할 수 있다.
또한 MDM은 기존 확산 모델에서 사용되던 평균 제곱 오차(MSE) 손실 함수 대신 구조적 유사성(SSIM) 손실 함수를 사용한다. 이는 생성 작업과 의미 분할 작업 간의 격차를 줄이는 데 도움이 된다.
실험 결과, MDM은 의료 이미지와 자연 이미지 데이터셋에서 의미 분할 작업의 성능을 크게 향상시켰다. 특히 적은 수의 레이블을 사용하는 few-shot 시나리오에서 두드러진 성과를 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問