本論文では、エネルギー補正VAE(EC-VAE)と呼ばれる新しい生成モデルを提案している。VAEは生成方向の最適化が不足しているため、生成サンプルがぼやけたり歪んだりする問題がある。一方、エネルギーベースモデル(EBM)は高品質な生成サンプルを生成できるが、マルコフチェーンモンテカルロ(MCMC)サンプリングが必要で計算コストが高い。
EC-VAEでは、VAEの生成方向を補正するためにEBMを導入する。具体的には、VAEが生成したサンプルを初期値としてMCMCサンプリングを行い、生成サンプルと補正サンプルの距離を最小化することで、VAEの生成方向を補正する。この補正は訓練時にのみ行い、推論時にはMCMCサンプリングを必要としない。
さらに、エネルギー補正の考え方を変分学習や正規化流モデルにも拡張し、ゼロショット画像修復タスクにも適用している。
実験では、提案手法がさまざまなデータセットで高品質な生成サンプルを生成でき、既存手法を大きく上回る性能を示している。特に、MCMCサンプリングを必要としない単一ステップの生成でも、GAN手法やディフュージョンモデルと肩を並べる性能を達成している。また、訓練コストも大幅に削減できている。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania