本論文では、分類拡散モデル(CDM)と呼ばれる、密度比推定(DRE)に基づく新しい生成モデルが提案されています。CDMは、ノイズ除去拡散モデル(DDM)の枠組みを採用しながら、クリーンな信号に追加されたノイズのレベルを予測する分類器を利用しています。
従来のDRE手法は、画像などの複雑な高次元データの分布を正確に捉えることができず、MNIST手書き数字データセットなどの単純なデータセットに限定されていました。これは、密度チャズム問題と呼ばれる問題が原因で、画像とノイズを区別するように訓練された分類器が、画像に関する有益な情報を学習しなくても非常に高い精度を達成してしまうためです。
CDMは、白色ガウスノイズを除去するためのMSE最適デノイザーと、ノイズレベルを予測するためのクロスエントロピー最適分類器との間に、理論的な関連性があることを示しています。具体的には、前者は後者の勾配から得られることが示されています。この関連性を利用することで、CDMは、DDMの形式を採用しながら、デノイザーの代わりにノイズレベル分類器を採用しています。
CDMは、MNISTを超えて画像を正常に生成できる最初のDREベースの手法です。さらに、DRE手法として、CDMは本質的に単一のNFEで正確な対数尤度を出力することができます。実際、単一のNFEを使用する手法の中で、最先端の負の対数尤度(NLL)結果を達成し、計算コストの高いODEベースの手法に匹敵する結果を達成しています。
実験では、CelebAおよびCIFAR-10データセットを用いてCDMの性能評価が行われています。その結果、CDMは、従来のDRE手法が苦手としていた複雑な画像の生成においても優れた性能を発揮することが示されています。また、NLLの評価においても、CDMは単一のNFEを使用する手法の中で最先端の結果を達成しています。
本論文では、CDMと呼ばれる新しいDREベースの生成モデルが提案されました。CDMは、従来のDRE手法が苦手としていた複雑な高次元データ、特に画像の生成において優れた性能を発揮することが示されました。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Shahar Yadin... klokken arxiv.org 11-01-2024
https://arxiv.org/pdf/2402.10095.pdfDypere Spørsmål