拡散モデルが持つ豊富な視覚的知識を活用することで、合成データのみを使って高性能な単眼深度推定モデルを構築できる。
本研究では、単眼深度推定モデルの深度エッジの精度を大幅に向上させることができる。
単眼RGB画像から高品質な深度マップを推定するために、エッジ情報を明示的に活用することが重要である。
提案手法FlowDepthは、動的物体の影響を軽減するDynamic Motion Flow Module (DMFM)と、高周波領域と低テクスチャ領域の不公平な光度誤差を解決するDepth-Cue-Aware Blur (DCABlur)モジュールを導入することで、最先端の単眼深度推定手法を提案している。
単眼深度推定では、物体の形状や文脈的な手がかりに大きく依存するため、大規模で多様なデータセットを必要とする。本研究では、事前学習済みのViTモデルから得られる詳細な意味的コンテキストを活用することで、拡散モデルの性能を向上させる。