最近の生成モデルであるStable Diffusionは、高度に写実的な画像を生成することが可能です。本論文では、Stable Diffusionネットワークが画像に描かれた3Dシーンの異なる特性をどの程度「理解」しているかを調査することを目的としています。具体的には、物理的「特性」をエンコードするためにオフザシェルフ拡散モデルから抽出された機能が、3Dシーンの真の幾何学的および物理的特性を予測するために使用できるかどうかを決定します。本プロトコルは、異なる物性(光源方向やサポート)や視点依存関係(遮蔽や深さ)など、さまざまなプロパティに対して拡散ネットワークを試す方法論を提案します。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor