核心概念
拡散モデルが持つ豊富な視覚的知識を活用することで、合成データのみを使って高性能な単眼深度推定モデルを構築できる。
要約
本論文では、拡散モデルを単眼深度推定に応用する手法「Marigold」を提案している。
拡散モデルの一種であるStable Diffusionをベースに、深度推定のためのファインチューニングを行う。
深度マップの潜在表現をStable Diffusionの潜在空間に保ちつつ、ノイズ除去U-Netのみを微調整することで、効率的な学習を実現する。
合成データのみを使った学習で、実データに対する優れた一般化性能を発揮する。
複数回の推論結果を統合することで、さらに精度を向上できる。
実験の結果、提案手法は既存手法と比べて優れた単眼深度推定性能を示した。特に、未知のデータセットに対する汎化性が高い。
統計
単一の画像から深度マップを推定することは幾何学的に ill-posed な問題であり、シーンの理解が必要不可欠である。
深度推定の精度は、使用するモデルの容量の増大とともに向上してきた。
従来の深度推定モデルは、訓練データに含まれるシーンに依存しがちで、未知のデータに対する一般化性が課題であった。
引用
「単眼深度推定は、写真画像を深度マップに変換することを目的とする基本的なコンピュータビジョンタスクである。」
「深度推定は現在、ニューラルネットワークによる画像変換として定式化され、教師あり(または半教師あり)の方法で学習される。」
「最近の進展には、畳み込みエンコーダ-デコーダネットワークからビジョントランスフォーマーへの移行が含まれる。」