核心概念
提案手法は、特別な画像エンコーダを使用せずに、ディフュージョンモデルの内在する自己注意機構を活用することで、効率的かつ正確な衣服の質感転写を実現する。さらに、人物画像と参照衣服画像に基づいて精度の高いインペイントマスクを予測することで、合成画像の高忠実度を実現する。
要約
本研究では、高品質な仮想試着を実現するためのTexture-Preserving Diffusion (TPD)モデルを提案する。
まず、TPDは特別な画像エンコーダを使用せずに、ディフュージョンモデルの内在する自己注意機構を活用することで、効率的かつ正確な衣服の質感転写を実現する。具体的には、マスクされた人物画像と参照衣服画像を空間次元で結合し、その結合画像をディフュージョンモデルのデノイジングUNetに入力する。これにより、UNetの自己注意ブロックが人物画像とそのコンテキストとしての衣服画像の相関を捉え、効果的に質感転写を行うことができる。
次に、TPDは人物画像と参照衣服画像に基づいて精度の高いインペイントマスクを予測する。従来手法は人物画像のみに基づいて粗いマスクを推定していたが、提案手法では人物画像と参照衣服画像の両方の情報を活用することで、背景や体の部位などの不要な領域を最小限に抑えた正確なマスクを生成する。
これらの提案により、TPDは既存手法と比較して高品質な仮想試着画像を生成できることが実験的に示された。特に、複雑な質感や模様を持つ衣服、さらには人物の姿勢変化にも強いことが確認された。
統計
人物画像Sと参照衣服画像Cを入力とし、高品質な仮想試着画像Iを出力する。