Core Concepts
潜在拡散モデルを使用して、テキストプロンプトとスケッチに基づいて高品質のファッションアパレル画像を生成する。
Abstract
本研究では、ファッション業界のニーズに応えるべく、潜在拡散モデルを活用したファッションアパレルの生成パイプラインを提案している。具体的には、ControlNetとLoRA Fine-tuningを組み合わせたモデルを開発し、テキストプロンプトとスケッチを入力条件として高品質な画像を生成することができる。
データセットとしては、Multimodal Dress CodeとVITON-HDを使用し、さらにスケッチ情報を追加した。定量的評価では、FID、CLIP Score、KIDの指標で従来のStable Diffusionモデルを上回る性能を示した。また、ユーザー評価でも、提案モデルの生成結果の方が現実味があり、テキストプロンプトとの整合性が高いことが確認された。
本研究は、ファッション設計プロセスにおける潜在拡散モデルの活用可能性を示すものであり、よりインタラクティブで個性的なファッションデザインの未来につながると期待される。
Stats
生成された画像はスケッチと高い構造的類似性を持つ
提案モデルはStable Diffusionと比べて、FID、CLIP Scoreで優れた性能を示した
Quotes
"潜在拡散モデルは、ファッション業界における設計プロセスに組み込まれる可能性を秘めている。"
"本研究は、より対話的で個性的なファッションデザインの未来につながる可能性がある。"