本研究は、単一画像からの単眼深度推定の課題に取り組んでいる。従来の深度推定手法は大量の教師データを必要としていたが、近年のテキストから画像生成を行う拡散モデルの登場により、少ない教師データで高精度な深度推定が可能になってきた。
具体的には以下の3つの貢献がある:
安定拡散モデルの最後の1ステップの特徴マップ、自己注意マップ、クロス注意マップを組み合わせた「前画像」表現を提案し、これを深度推定のための入力として活用する。
前画像表現を段階的に処理するための構造的バイアスを持つ深度推定ネットワーク「PrimeDepth」を提案する。これにより、従来の拡散ベースの手法と比べて2桁高速な推論が可能となる。
PrimeDepthは、大規模教師データを必要とする最新の深度推定手法Depth Anythingに次ぐ性能を達成しつつ、Depth Anythingの10分の1程度の教師データしか必要としない。さらに、Depth Anythingと相補的な性質を持つため、両者の平均をとることで新しい最先端の深度推定手法を実現できる。
To Another Language
from source content
arxiv.org
Deeper Inquiries