核心概念
マスク拡散モデル(MDM)は、従来の拡散モデルのガウシアンノイズを置き換え、マスキング操作を導入することで、セマンティックセグメンテーションなどの下流タスクのための強力な表現を学習する。
要約
本研究では、従来の拡散モデル(DDPM)の生成能力と表現学習能力の関係を分解し、生成能力に依存しない新しい自己教師あり表現学習手法であるマスク拡散モデル(MDM)を提案している。
MDMでは、従来のガウシアンノイズ添加の代わりにマスキング操作を導入し、さらにMSEではなくSSIM損失関数を使用することで、下流のセグメンテーションタスクに適した表現を学習する。
実験の結果、MDMは医療画像と自然画像のセグメンテーションタスクにおいて、従来手法であるDDPMやMAEを大きく上回る性能を示した。特に、少数ラベルデータでの性能が優れており、ラベル効率の高さが確認された。
統計
提案手法のMDMは、従来手法のDDPMと比べて、GlaS医療画像データセットの10%ラベルデータでのDice scoreが91.60%と大幅に向上している。
MDMは、FFHQ-34自然画像データセットでのmIoUが60.34%と、従来手法のDatasetGAN、DatasetDDPM、MAE、DDPMを上回る性能を示している。
引用
"マスク拡散モデル(MDM)は、従来の拡散モデルのガウシアンノイズを置き換え、マスキング操作を導入することで、セマンティックセグメンテーションなどの下流タスクのための強力な表現を学習する。"
"実験の結果、MDMは医療画像と自然画像のセグメンテーションタスクにおいて、従来手法であるDDPMやMAEを大きく上回る性能を示した。特に、少数ラベルデータでの性能が優れており、ラベル効率の高さが確認された。"