本論文は、ディフュージョンモデルと視覚言語モデルを組み合わせた「Blended Latent Diffusion」手法を用いて、建築ファサードの局所的な編集を実現する方法を探索している。
まず、ユーザーが建築ファサードの編集効果を記述したテキストプロンプトを入力する。次に、ユーザーが窓、ドア、壁などの編集対象領域をマスクで指定する。この手法により、ディフュージョンモデルが局所的な編集を行い、建築ファサードの外観を直感的かつ効率的に変更することができる。
この手法の利点は以下の通りである:
一方で、建築ファサードの複雑性や多様性を効果的に表現・捕捉すること、膨大な計算リソースを必要とする訓練・推論プロセス、大規模なデータに対する不均衡や不足といった課題にも取り組む必要がある。
本論文では、これらの課題に対する解決策と改善方法を提案し、建築設計分野における革新的な編集ツールの開発に貢献することを目指している。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jing Wang,Xi... às arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02967.pdfPerguntas Mais Profundas