提案手法は、特別な画像エンコーダを使用せずに、ディフュージョンモデルの内在する自己注意機構を活用することで、効率的かつ正確な衣服の質感転写を実現する。さらに、人物画像と参照衣服画像に基づいて精度の高いインペイントマスクを予測することで、合成画像の高忠実度を実現する。