本論文では、仮想試着タスクにおけるディフュージョンモデルの制御性と高速性の課題に取り組む。
まず、ControlNetアーキテクチャを用いて、ディフュージョンモデルの制御性を向上させる手法「GC-DM」を提案する。GC-DMでは、ControlNetを用いて追加の制御条件を導入し、衣服画像の特徴抽出を改善することで、ディフュージョンモデルの生成能力を高めている。
次に、高速化のために、事前学習済みのGANベースのモデルを利用して逆ノイズ除去プロセスの初期サンプルを生成する「トランケーション型高速化戦略」を提案する。これにより、ディフュージョンモデルの推論速度を大幅に向上させることができる。
実験の結果、提案手法であるCAT-DMは、GAN系およびディフュージョンベースの既存手法と比較して、より高品質な仮想試着画像を生成できることが示された。また、従来のディフュージョンモデルと比べて、大幅な高速化を実現している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問